文 摘 对国内外以后控制词表为代表的传统后控制检索机制在自然语言检索系统中的应用状况进行综述,并指出在网络环境下,后控制技术功能应得到延伸和发展。
关键词 后控制词表 后控制技术 自然语言检索
关键词检索在80年代以来的计算机检索系统中占有重要地位,但是检索效率低下是其致命弱点,这引发了人们对关键词系统如何优化的探索,后控制词表就这样应运而生了。自然语言固有的歧义、模糊性和标引的无控导致索引词的无控,在当前网络信息检索盛行的情况下,这个问题更加突显了出来。
1 传统的后控制技术――后控制词表
著名情报学家兰开斯特在最早提出“后控制词表”这一概念时曾有过这样精辟的论述:“普通叙词表属于先控词表,而把若干词或词的片断构造成一个检索策略,则属于一种后控过程”。张琪玉教授在80年代初也提出用后控制词表来改善关键词检索性能的思想。
具体地,后控制技术是指检索系统在标引阶段使用自然语言,不对标引进行严格控制,而在检索阶段才对检索词进行控制的一种自然语言检索优化技术。
后控制词表的性质类似于入口词表,它是一种转换工具,一种扩检工具,一种罗列自然语言检索标识供选择的工具。后控制词表是利用先控语言的原理和方法编制的自然语言检索用词表,它主要是对自然语言中大量存在的等同关系、等级关系和一部分相关关系进行控制和提示,具有自学习功能,可根据检索的需要将新概念和新术语及时地加入词表中,是一个动态词表。用户通过浏览词表选用检索词,或者系统自动执行查询调整(主要是扩检)既减轻了用户负担,又提高了系统的易用性和检索效率。后控制词表是“自然语言检索和人工受控语言结合的最佳范例”。
2 国外后控制词表技术研究及应用现状
2.1 国外后控制词表技术研究
后控制词表系统是信息检索的核心,也是提高检索效率的关键。国外情报界非常重视词表的研究。各大学的图书情报学院、计算机系和研究机构、信息服务机构、软件开发公司,纷纷探讨后控制词表的检索机制,并开发了一系列实用性的词表自动化编制管理系统。
国外有关词表编制及词表在网络化应用方面的研究与实践已经取得了长足的发展。一方面,已经开发出了多种词表编制与维护软件。在此基础上,充分结合网络技术,使词表向着网络化和提供网络检索应用接口的方向发展。例如独立自成一个软件包的软件,并可以在PC机上独立运行或通过网络使用的软件有:Lexico;MultiTes;Stride;Synaptica。编制软件的应用,通过基于逻辑规则的计算机程序,使得词表编制中至关重要的一环――逻辑关系的反参照得以自动建立,有的软件,甚至还可以完全根据词汇的语义来建立词间关系,并自动归到某个类目范畴下。另一方面,把机读或网络化词表嵌入网络检索工具中或者作为检索系统的一个可调用接口,为用户检索策略的构造提供提示和导航,这样就提高了网络检索效率,真正体现了词表在网络检索中的应用价值。国外开发了一系列实用性的网络化词表及其后控检索支持下的网络信息检索系统。
这里我们来看一下最成功的UMLS(统一医学语言系统)。UMLS是一个集成的词表语言系统,由一批医学领域专家通过手工建立辞典来存储概念层次及词条之间的交叉联系。
元叙词表是UMLS系统的中心词汇组件。元叙词表是一个有关概念的信息数据库,这些概念是那些在生物医学领域内使用的一个或多个不同受控词汇和分类表。一般,元叙词表的范围由它的源词汇的组成范围决定。元叙词表保留了语义、属性、等级联结和在其源词汇表中表示的术语之间的其他关系,而对每一个概念信息加入了某个基本信息并在源自不同源词表的概念和术语之间建立同义和新的关系。在元叙词表中,词串(strings)联接到词(terms);词串和词都被联接到概念(Concept),见表1。
表 1
Concept(CUI) | Terms(LUIs) | Strings(SUIs) |
C0004238 Atrial Fibrillation (preferred)Atrial Fibrillations Auricular Fibrillation Auricular Fibrillations | L0004238 Atrial Fibrillation (preferred) Atrial Fibrillations L0004327 (synonym) Auricular Fibrillation Auricular Fibrillations | S0016668 Atrial Fibrillation (preferred) S0016669 Atrial Fibrillations S0016899 Auricular Fibrillation (preferred) S0016900 (plural variant) Auricular Fibrillations |
2.2 国外后控制词表技术应用现状
后控制词表技术的应用主要有以下两个方面。
(一) 后控制词表技术在数据库检索中的应用。
(1) 几乎所有的联机检索系统,都提供了相应的词表辅助检索体系,供用户构造检索策略、选择准确的检索词之用。例如,在Dialog系统中,通过“Expand”命令,就可以实现词表辅助功能。
例如:查EIRC词表中与safety相关的词:
?e(safety)
Ref
R1
R2
R3R4
R5
R6
R7
R8
R9
R10
R11
Items
5278
44
322
417
150
396
418607
593
78
Indexterm
SAFETY
SAFETY PROVISIONS
AGRICULTURAL SAFETY
FIRE PROTECTION
LABORATORY SAFETY
OCCUPATIONAL SAFETY
AND HEALTHSCHOOL SAFETY
TRAFFIC SAFETY
ACCIDENT PREVENTION
ACCIDENTS
ALARM SYSTEMS
type
U
N
N
N
N
N
N
R
R
R
RT
28
1
3
11
8
13
11
5
6
9
22
词表辅助检索,是提高联机检索效率的最有力的措施之一。后控制词表在数据库检索方面得到了最广泛的应用。
(2) 生物学情报社(BIOSIS)提供的词表检索系统(ZR),提供了两种词表系统:一种是主题词表(subjectthesaurus),包括动物学、地理和古生物方面的词条以及相应的注释,按照生物等级体系排列,如图1;一种是生物体系词表(systematicthesaurus),按照生物分类体系排列,主要用于对生物名称的英文和拉丁文的对照检索。
Level Term
01…Evolution
02……Evolutionary adaptation
03………Adaptive radiation
03………Convergence
03………Divergence
03………Parallelism
02……Evolutionary rate
02……Extinction
02……Homology
02……Mimicry
02……Natural selection
02……Origin of life
02……Origin of taxon
02……Phylogeny
02……Speciation
03………Evolutionary isolation
02……Variation
03………Behavioural variation
03………Biochemical variation
03………Morphological variation
04…………Colour variation
图1:动物学的“evolution”主题等级展示
此外,国外还有很多专业领域的叙词表,如艺术叙词表、农业叙词表等等。
(二) 后控制技术在网络检索中的应用
在现有的一些搜索引擎中使用了后控制技术,并以各种不同的方式对信息检索实施控制。如:
(1) SOSIG社会科学专业搜索引擎中使用的Hasset主题词表。Hasset主题词表以完整的主题词表的形式作为搜索引擎的可调用组件实现辅助检索。
(2) Excite的ZoomIn概念检索助手(现改为“related terms”显示)。它通过同义替换及区分对用户检索策略的构造提出建议,精确检索条件,从而得到相对全面、准确的检索结果。
(3) AltaVista检索系统具有根据检索式自动反馈一系列相关检索词的功能。通过利用分词技术,停用词典技术,词表扩展技术和与用户在检索时的交互,实现了本质上的概念检索。其关键技术是系统内置了一个同义词、相关词词典。如图3,用户输入检索式“travel”,系统通过相关概念的反馈技术,罗列一系列相关检索词,供用户选择,从检索概念上帮助用户调整检索策略,达到优化的检索。
3 国内后控词表技术研究与应用现状
我国的情报语言学家对后控制词表的理论和技术实现进行了深入的探索。但总体而言,国内对后控制技术的研究水平与国外相比具有一定的差距。
从80年代开始,我国的情报语言学工作者就开始对后控制词表的编制特别是计算机辅助编表技术进行了一些探索,提出了一些后控制词表的编制方法,并研制了不少基于“非受限领域”的后控制实验系统。如,周全明等人利用字面成族原理,以《中图法》类目体系作为词表分类框架,在人工分面分析的基础上,利用计算机辅助编制了《汉语题内关键词索引与后控制词表系统》;宋明亮利用相似度算法计算词间相似度以进行词汇归类,在辅以人工判别的基础上实现后控制词表的动态维护。
我国近年来也编制了不少叙词表,《军表》和《社科词表》的软件是相当不差的,至少在处理逻辑关系方面没有问题,而多数词表的编制还是仅仅局限于借助数据库在操作上的便捷功能,自动化(智能化)程度较低,一方面,耗费了大量的精力;另一方面,又难免词间关系逻辑上的错误。侯汉清教授、马张华老师等都曾以《中图法》、《中国分类主题词表》为框架,探索利用分类主题自由词的互换技术来编制后控制词表。可喜的是也有研究者目前正致力于后控制技术支持下的网络检索工具的研究和开发,但至今国内还没有较为成功和实用化的系统。
在提供网上专业数据库的全文检索服务方面,较国外而言,国内相对要落后一些。在Internet上提供专业数据库检索服务的信息服务机构就更少了,至于全文检索中增加后控词表检索系统几乎没有。
基于目前的词表编制特点和技术水平,后控制词表的编制似乎还只能局限在一个“受限领域”内,基本实现了自动编制,但在动态维护词表,如及时追加、更新这一点上还需要进一步探索。
4 网络时代的后控制技术
网络信息检索的迅猛发展,自然语言的检索特性、优势使其成为网络信息检索系统的主要检索用语言。但是它在给用户带来检索自由的同时,也给用户带来沉重的检索负担。
我们从用户检索策略的构造过程中可以分析得出:在提交检索式之前,为用户提供一个编辑新检索式的机会对于改善Web信息自然语言检索性能是非常重要的。另外,检索结果的处理及显示在网络信息检索中也被提升到一个非常重要的技术高度。后控制技术可以极大地改进Web信息的自然语言检索性能的事实已得到普遍的认同。因此,后控制技术在网络环境中并没有失去其传统的效用,相反地,它在改进Web资源自然语言检索中的效用更加鲜明和突出,后控制技术在网络时代更是有了全新的诠释和功用。
网络信息检索的特点赋予了后控制技术更丰富的内涵。笔者认为网络环境中的后控制技术应该包括以下3个方面的内容:
(1) 检索主题领域的修整;
(2) 检索式修整处理,包括停用词处理、截词处理和后控制词表查询扩展3个方面;
(3) 检索结果后处理――结果聚类。
检索主题领域的修整,是就用户构造检索策略而言的。领域修整的目的是将查询限定在用户感兴趣的某个领域内进行搜索,避免产生过量的结果信息。检索式的修整处理主要是指利用停用词典去除那些没有检索意义的虚词、介词或增加系统开销的插入语等;截词检索是自然语言检索技术的一种,本质上它也是一种后控制技术,即截词的实现要借助于系统内置的“词根词典”的控制;借助词间关系词表的查询扩展技术即传统所指的后控制技术,在网络环境中同样非常重要。检索结果的后处理,也就是检索的一个过程,对检索结果的控制在网络信息检索环境中特别必要和重要。因此,检索结果的后处理也是后控制技术的一个方面,聚类技术对结果可以实现有效的控制。通过聚类,将检索结果组织成一个主题目录导航树,科学地从检索结果角度优化了检索,减轻了用户负担,使用户以最快的速度准确定位到满足其检索需求的记录信息。以上3个方面构成了网络信息检索时代勃兴的后控制技术。
在网络检索工具中,要充分利用各种后控制技术,从网络信息检索过程的各个角度来优化自然语言检索技术。换言之,一个优秀的网络检索工具,应该配备完善的后控制检索机制。
结语
检索效率是情报检索研究的核心问题。我们从用户检索策略的构造过程中可以分析得出;领域知识的获取是改善检索性能的重要因素。领域知识主要来自构造检索策略时与用户的交互,而在情报检索技术还没有实现人工智能之前,领域知识的获取应该来自于受控制词表的词汇关系链。因此,后控制词表在信息检索中的作用不可低估。
参考文献
1 兰开斯特,F.W.著;侯汉清等译.情报检索词汇控制.上海:同济大学出版社,1992.8
2 张琪玉.张琪玉情报语言学文集.北京:北京图书馆出版社,1999.5
3 贾同兴.人工智能与情报检索.北京:北京图书馆出版社,1997.7
4 张琪玉.网络信息检索工具增强关键词检索功能的措施.图书馆杂志,2001(1)
5 Dick Stenmark.To Search is Great, to Find is Greater: a Study ofVisualisation Tools for the Web, http://w3.informatik.gu.se/~dixi/publ/mdi.htm
6 NLP Meets the Jabberwocky: Natural Language Processing in InformationRetrieval. Susan Feldman, online, 1999.5
7 2001 UMLS Documentation (12th.ed).http://umlsinfo.nlm.nih.gov/
8 http://www.asindexing.org/
9 http://www.excite.com
包冬梅 南京政治学院上海分院信息管理系助教,教学和研究方向为情报语言学、计算机信息检索