基于含糊抽词的汉语题内关键词索引与数据库分析 张琪玉
发布时间:2018-09-25  浏览次数:22

基于含糊抽词的汉语题内关键词

索引与数据库分析

张 琪 玉

(南京政治学院上海分院信息管理系  200433)

        阐述关键词索引与数据库的一般原理、结构与功能,汉语题内关键词索引的含糊抽词,列举四种汉语题内关键词索引的样式,分析了题内关键词索引与数据库的检全率、检准率、检索方便性、编制难度与编制成本,并提出某些可以进一步完善之处。

   关键词  汉语题内关键词索引  检索效率

 

1 关键词索引与数据库的一般原理、结构与功能

    文献题名是文献著者经过深思熟虑后拟定的,用以表达文献主题内容的名称。除文艺作品外,文献题名一般都能较好地表达文献的主题内容。但实际上,在手工编制检索工具的条件下,文献题名并不能直接作为一种内容检索途径(它只能作为一种文献外表特征,用于已知题名的检索)。

    本来就是用以表达文献主题内容的文献题名,之所以不能直接作为内容检索途径,其原因是多方面的,它在字顺序列中不能很好地提供准确有效的文献内容检索入口,是其不能直接作为文献内容检索途径的诸多原因之一。

    检索工具编制过程的计算机化,使文献题名直接提供文献内容检索途径成为可能,这就是关键词索引与数据库,特别是题内关键词索引与数据库。

    题内关键词索引与数据库是利用文献题名中对表征文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可以作为检索“入口”的)那些语词,作为检索词,连同题名中其余的语词并保持原有词序,进行轮排,进而提供多个检索入口的那类索引与数据库。按其实质,这是在情报检索中直接使用自然语言的一种方法,是索引编制过程计算机化的产物。

    对于词与词之间以空格作为分隔标志的语言(如英语、俄语等),在编制关键词索引和数据库时,可以利用空格以及非用词表(非关键词表)作为自动识别关键词的手段而实现自动标引。但是对于汉语而言,尚不可能利用各种汉语自动分词法来实现汉语关键词的自动识别。为了使关键词索引与数据库保持较高的质量,需要采取人工辅助的办法来识别题名中的关键词。这里所说的“人工辅助”,是指对题名中的关键词由标引人员来进行识别。但是,仍有一些题名在识别其关键词时会遇到困难(既可这样认为某几个汉字的组合是一个关键词,也可那样认为某几个汉字的组合是一个关键词)。所以,“含糊抽词”(也可称为“模糊抽词”)就成为提高汉语题内关键词索引与数据库标引质量和检索效率的重要方法。

    所谓“含糊抽词”(参看参考文献①),是指题名中凡是具有检索意义,可以作为检索入口和能字面成族的词组、词或词素,都把它作为关键词排到检索入口位置,而不须再考虑到底哪几个汉字的组合才算一个词,一个词抽到何处结束的问题。用这种方法来确定题名中的关键词更加容易,而且明显可提高检全率,但不会影响检准率。

    下面是基于含糊抽词的汉语题内关键词索引的四种样式,其中B-2式是B-1式稍加改变而成的,B-2式和C式在输出成为印刷型时要稍加人工整理,因而与数据库的样式略有不同。

    这些题内关键词索引与数据库,都是关键词与著者混合的索引与数据库,具有双重检索功能。(下列C式关键词索引除外)

这些题内关键词索引与数据库的编制方法及计算机程序,请参看参考文献②③④。

    图1 A式关键词索引的样式(检索入口在第二栏左端)

    图2 B-1式关键词索引的样式(检索入口在左端)

2 从检全率和检准率看题内关键词索引与数据库

    关键词索引与数据库标引-检索所用的语言是自然语言,缺乏规范性,这必然会影响检全率。但这只是一个方面,另一个方面是:关键词索引与数据库,特别是基于含糊抽词的关键词

    索引与数据库,其标引深度比较大,标引频率一般可达到4左右(不包括著者),每个关键词都可以聚类,这可以提高检全率。所以,它与其他标引深度较浅的标引-检索用语言相比,检全率还是较高的。

    题内关键词索引与数据库由于保留了题名的全部用词和原有词序,故其中的任何一个关键词,都在上下文语言环境中,其专指度和区别能力都比较高,检准率也就比较高。题名的长短和用词准确性,则是影响其检准率的主要因素。

3 从检索方便性看题内关键词索引与数据库

    上述四种样式的关键词索引中,A式的检索入口在右栏左端,C式的检索入口在第二行,B-1式和B-2式的检索入口虽然都在左端,但除个别条目外,题名都被截为两段并倒置,这对未用过轮排索引的读者可能会感到不大习惯,不过,这种不习惯是很快会消除的。

    题内关键词索引的检索入口多,每个作为检索入口的关键词都可与相同关键词字面成族,便于浏览,检索者可从任意角度进行检索,只要检索者明确自己的检索重点,都能较快地直接获得所需文献。

所以,题内关键词索引与数据库的检索方便性还是相当好的。

4 从编制难度和成本看题内关键词索引与数据库

    以上四种汉语题内关键词索引与数据库样式中,除A式编制工序较多外,其他三种样式的编制工序都很简单,只要按规则输入著录数据就成了,特别是关键词索引与数据库不需要人工分类或主题标引,而人工含糊识别关键词是比较容易的,所以可以说反而比一般题录索引与数据库更容易编制。

    3 B-2式关键词索引的样式(检索入口在左端)

    从这些索引与数据库标引深度较大和检索效率较高的情况看,相对于所花费的编制人力而言,其编制成本是较低的。

5 基于含糊抽词的汉语题内关键词索引与数据库的进一步完善

这类索引与数据库尚有需要进一步研究、完善之处:

(1) 文献题名本身的质量,是这类索引与数据库质量的制约因素。故如何提高题名本身的质量(如对原题名作必要的修改、增补等),值得研究;

(2) 关键词不规范,是影响这类索引与数据库检全率的主要原因。故有必要在同义词、近义词之间插入一些“参见”参照或超链接(采用后控制词表也是一种办法),以及对于一些重复较多的轮排点进行归并(在一处用“见”参照或超链接引向被保留的一处);

(3) 印刷型索引的格式整理(输出排版格式)能否实现自动化;

(4) 含糊抽词能否部分实现自动化;

(5) 在数据库中采用快速定位技术;

(6) B-2式和C式关键词索引难于更新(每次插入新条目要重新作格式整理)的问题(第三个问题如能解决则此问题便不存在);

    图4 C式关键词索引的样式(检索入口在第二行左端)

(7) 目前的索引样式是用WPS做成的,转到WINDOWS环境时每行长度会变得参差不齐,极不美观,需要解决。


参考文献

1 张琪玉.人-机结合的题内关键词索引可回避汉语分词难题,图书馆杂志,1993(4):14-15

2 张琪玉.汉语题内关键词索引的一种编制方法.图书馆理论与实践,1998(1):13-15

3 张琪玉.汉语题内关键词索引的另一种编制方法.图书馆理论与实践,1998(6):38-40

4 张琪玉.汉语题内关键词索引的第三种编制方法.图书馆理论与实践,1999(11):8-10

 

张琪玉  南京政治学院上海分院信息管理系教授,中国索引学会副理事长。