题名关键词与正文关键词检索性能的差别
张 琪 玉
有两类索引与数据库是用关键词检索的。
一类是提供情报源信息(检索对象是文献的线索)的索引与数据库,包括各种题录索引与数据库。它们的检索用词是题名关键词。
另一类是直接提供事实情报(检索对象是文献中关于某一事实的记载)的索引与数据库,包括全文索引、图书索引(专书索引和群书索引)与数据库以及由搜索引擎建立的网页数据库。它们的检索用词是正文关键词。图书索引虽有部分用词是标引人员自拟的,但绝大部分取自文献正文。
题名关键词与正文关键词虽然都是文献著者在其著作中使用的一些关键性的语词,但两者的检索性能有很大差别。 题名关键词取自文献题名。文献题名是文献著者经过深思熟虑后拟定的,用以表达文献整体主题的名称。除文艺作品外,文献题名一般都能较好地表达文献的整体内容。所以,题名关键词比较适用于提供情报源信息(文献线索)的一类索引与数据库。或者说,题名关键词适用于检索文献。
正文关键词取自文献正文。少数正文关键词能较好地表达局部主题和主题因素(指文献中所涉及的地区、人物、机构、事件、生物、矿物、产品、设备、方法、工艺、公式、数据、著作等各种事项的名称,这些名称所指的事物在文献中并未被具体论述,不能表示某一可独立被参考的主题内容,但可以牵引出一些相关的知识和信息,从而具有一定的检索意义)。绝大部分正文关键词都只与文献的某一段落或若干连续的段落有关,故比较适用于直接检索文献中的具体内容(即事实情报)的一类索引与数据库,但不大适用于题录索引与数据库。多数正文关键词其实在检索中不具备关键性,但要让计算机自动排除这些不具备关键性的“关键词”却难度极大。
因特网搜索引擎的关键词检索所用的关键词属于正文关键词,因此,不适于检索对象是情报源信息(文献线索)的检索要求。对于检索对象是事实信息的检索要求,由于它无法有效地自动排除大量不具备关键性的“关键词”,故误检率就极高。关键词缺乏规范性,同义词、近义词以及更多的同义与近义词组的存在,也会大大增加漏检率。
认识题名关键词与正文关键词检索性能的区别,对关键词法的研究是至关重要的。