图书索引软件的功能要求与编制难题
张 琪 玉
(南京政治学院上海分院信息管理系 200433)
图书索引(专著索引、书后索引)是直接检索书内事实情报的索引。编制图书索引的专用软件需要具备这样一些功能:
(1) 标引(抽取书内可索引内容,编成索引标目与副标目)的功能;
(2) 编制出处项(给出起止页码)的功能;
(3) 索引款目排序功能(包括多种排序方式);
(4) 产生轮排款目的功能;
(5) 将相同标目(包括相同主标目和相同副标目)的索引款目进行合并的功能;
(6) 建立参照系统及助检标志或索引数据库的超链接的功能;
(7) 建立后控制词表或类似结构的功能(如果是索引数据库);
(8) 按特定版面格式输出索引数据的功能(输出到磁盘和打印输出);
(9) 一般检索功能(如果是索引数据库);
(10) 组配检索功能(如果是索引数据库);
(11) 反白(或变色)显示检索结果的功能(如果是索引数据库);
(12) 文本任意字词匹配检索功能(如果是索引数据库)。
在以上12项功能中,(3)至(12)这10项功能都可以实现自动化,唯独(1)(2)两项功能实现自动化有很大困难。原因在于:
自动标引技术目前仍停留在自动抽取关键词的水平,对自动抽取主题还没有突破性进展。
图书索引要求详细而又有选择地并相当专指地标引图书的局部主题和主题因素,但不允许象全文检索那样用所有关键词无遗漏地标引其全部内容。图书的可索引内容必须是:(1)图书中比较具体地论述了的:(2)有一定参考价值的;(3)可以成为检索对象的;(4)图书中所涉及的地区、人物、机构、事件、生物、矿物、产品、设备、方法、工艺、格式、数据、著作等事项名称,在图书中虽未被具体论述,但可以牵引出一些相关的知识和信息,而具有一定检索意义的。因此,要从大量关键词(用一般规则抽出的“实义词”)中准确地精选出少量的符合上述要求的词和词组,这方面的自动化研究虽已进行了几十年,但至今还没有达到实用水平。何况,图书索引款目不能完全使用著者的原词来表达,还有个索引标目的措辞问题。这样,问题就更加复杂了。
同样的原因,计算机既然还不能准确地自动提取图书正文中的可索引内容,也就不可能自动给出被索引内容的确切出处(其所在的确切起止页码)。
关于这两个难题,到目前还未见有已经解决的确切报道。目前都只达到“人工标引+计算机抽词处理”或“计算机抽词(依据抽词词典)+人工判别修正”的人-机结合水平。好在用这种办法编制的索引款目质量有保证。从满足实际索引与数据库编制的迫切需要看,目前也只能采取这种办法。
张琪玉 南京政治学院上海分院信息管理系教授,中国索引学会副理事长。