重新思考词表在科技文献服务中的作用(梁 冰、乔晓东、王 莉)
发布时间:2018-09-26  浏览次数:30

重新思考词表在科技文献服务中的作用

 

梁冰   乔晓东   王莉

(中国科学技术信息研究所 信息技术支持中心  北京  100038

 

  要  词表是文献与情报检索中用以标引的一种检索工具。它是一些规范化的、有组织的、体现主题内容的、已定义的名次术语的集合体,多年来为图书馆行业的信息组织起到了重大作用。随着互联网技术及相应产品的快速发展,新的词条及百科等知识化构建模式以及多语言服务对传统词表造成了强烈冲击,图书情报领域也在深刻思考传统词表如何适应新时期的发展。本文结合国家十二五科技支撑计划项目“信息资源自动处理、智能检索与STKOS应用服务集成”,简述新时期如何构建词表与利用词表展开智能化科技文献服务。

关键词  词表  科技文献服务  文献检索

 

1.概述

早期的词表产生于19世纪中叶,它不是按照字母顺序排列,而是按照词语表达的概念进行系统排序,目的在于找到表达概念的最合适的词或词组。图书馆利用它来有效的组织资源,表达资源所属领域与涵盖范围。在20世纪中后期,词表的建设全面展开,专业领域的词表相继产生。图书馆标引员开始将词表用于文献的标引,并开始利用标引词汇与检索人员的语言相匹配,从而更有效地查找文献,国外有众多典型应用案例。我国的词表建设也经历了相同阶段,有代表性的项目有《中国分类主题词表》。但是我国的词表建设存在维护经费不足,应用理论与技术相对落后不能支持推广,内容的数字化程度低等原因,造成词表应用与发展在后期停滞不前。

传统的词表依靠专业人员手工编制与维护,主要保存于本地由专业人员用来做文献资源的组织、标引和检索。随着21世纪以来互联网的飞速发展,一些词表开始从单机电子版向网络环境移植,并逐渐被集成到信息检索系统中,如ERIC/HASSET/AAT/UMLS[1]。词表的发展呈现出版本网络化、编制模式半自动化与协作化/协同、集成化与本体化、信息组织标准全面升级、发布为关联数据等特点[2]。各类基于词表的应用急剧增多,对网络化,知识化的词表研究逐渐形成热点,重点集中在词汇自动丰富、不同词表间的互操作、基于叙词表构建本体、以及通过词表形成领域知识化服务等方面。此外,互联网服务商开始建设类似百度词条,维基百科等互联网应用及服务,以全新的模式对传统词表的建设和应用提出了挑战。

由此,随着大数据时代的来临,图书情报行业更加需要强化知识组织手段,充分原有积累的词表工具,吸收互联网建设中的创新与技术,这不仅仅体现在词表的编制与构建上,更重要的是,新的应用需求与技术上的可能,使得词表这个传统知识组织工具重新回到应用的舞台。

2.文献情报行业对词表的研究热点

词表的自动更新研究:传统词表是依靠人工维护的,以科技领域词汇的发展变化来看,其更新速度远远跟不上实际领域发展的速度。因此,文献情报行业研究重点逐渐从词表的数字化加工处理转向词汇的自动发现与补充,不断丰富和更新词表的建设模式。不断从科技领域学术研究的自由文本中抽取词汇,挖掘词汇间关系,而这些关系的准确性与采用的挖掘算法密切相关,虽然无法比拟人工编制词表的严谨与精确,但是可以作为其补充,促进词表更新。[3]

词表间的互操作研究:各行业领域都拥有相对准确和专业的词表,如何使用多种不同词表,将其整合实现互操作提高应用水平成为研究热点。词表互操作包括两种方式,一是以统一标准进行数据整合,在其他系统中导入和使用;二是在两个不同词表之间建立两两映射关系,通过映射将不同类型、不同语种的词表集成整合到一起。在标准化方面,研究热点集中在如何采用知识组织规范对叙词表进行描述。目前,通过词表间映射是解决互操作的最重要的方法,美国国立医学图书馆建设的UMLSUnified Medical Language System)就是非常典型且成功的案例,它不断整合国家医学系统的传统分类法、叙词表、标题表、术语词典等资源通过映射、链接等对概念及概念关系进行自动抽取、集成归并,建立不同词表概念间的映射关系,形成了一部概念和语词覆盖面广、语义关系丰富的超大规模词表,广泛应用于医疗信息系统、病案系统、自然语言处理、文本自动标注、智能检索及搜索引擎等领域。

词表的本体化研究:本体是建立概念和概念之间关系的为核心,提供对特定领域知识的描述,而本体的构建较为复杂,并且在不同领域很难复用。叙词表由于其丰富的概念、词汇及词间的语义结构,为本体的构建提供基础条件[4],已经有较为成功的应用案例,如联合国粮农组织将Agrovoc叙词表转换为农业本体。

3.新时期词表建设与应用的新模式

与传统词表建设不同,美国普林斯顿大学建设的WordNet基于心理学和语言学的数据库,组织形式是用户在认知过程中所表现出的同概念性质,按照单词的意义组成一个单词的网络。它是一个覆盖范围宽广的英语词汇语义网,以一种“网”的形式来描述词语的意义,可以是利用语义成分表示语义,也可以是利用关系表示语义。在WordNet中名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,即在词的形式和意义之间建立起映射关系用于描述词汇矩阵,并且这些集合之间也有各种关系连接,名词层次中最深达16个节点。目前WordNet对外可以多种服务与应用,例如在语义层面同义词及反义词的检索;以领域数据字典为依据,从WordNet中抽取个子本体概念来构建本体等。

相比之下,互联网搜索引擎承担了更多的信息检索与发现的入口工作,允许用户使用更为宽松的自由词进行信息检索,而在其搜索引擎的背后是基于传统词典基础,依靠机器学习及分析统计海量文本信息中词间关系,通过海量计算建立词间关系,同义词发现与词语聚类,由此形成更为复杂的词汇网络。与传统词表的建设不同,搜索引擎有独特的词表更新机制,一方面不断利用语义分析及统计分析的方法从海量新增文本中补充新词,丰富词间关系;另一方面还利用用户入口词及用户对检索结果的点击行为进行分析,完善及丰富词间关系,并不断建立概念与实体的映射关联关系,为提高检索质量不断进行修正。除此以外,搜索引擎及互联网服务商也在建立另外一种“词表”(更接近于非结构化的知识组织体系),如百度词条,百度百科,维基百科等,通过互联网用户自主贡献词条,释义,并进行详细说明。以此不断丰富概念及实体关系的映射,补充词间关系,通过信息技术手段及用户广泛参与不断自我完善与丰富。

4.国家科技图书文献中心的STKOS超级词表建设工作

与互联网资源不同,科技文献属于较为特殊的结构化知识体,很多词汇具有极强的专指含义,其文本中语句具有复杂的描述结构,不存在歧义,通常采用第三人称描述方式,较少含有主观性评价,不能简单的利用出现频度和用户使用频度来做相关词汇聚及构建工作,在互联网领域较为成熟语言处理技术针对科技文献领域存在很多适应性。

国家“十二五”科技支撑计划立项支持建设超级科技词表(STKOSScientific & Technological Knowledge Organization Systems),该项目的主要目标是,借鉴国内外已有的知识组织系统建设成果与应用经验,并结合当前互联网应用服务中的新特点,构建面向计算机应用的英文超级科技词表,实现国家科技文献信息战略资源的有效组织、深度揭示和知识关联,提供知识检索服务。

超级科技词表计划收集科技概念规范名称80万条,覆盖理、工、农、四大领域,由基础词库、规范概念库和范畴库三个部分组成。基础词库包含国际上重要知识组织体系中的术语,主要涉及叙词表、术语表等富含语义关系的术语或概念,计划规模为500万条;规范概念库包含概念形成过程中涉及的词型规范、意义规范的同义词和准同义词,以及规范概念间的共现关系;范畴库是按照使用需求修改或重新编制的概念体系结构,主要用于规范概念的分类归并以及文献信息的宏观分类导航。

超级科技词表素材采集、评价与遴选:超级科技词表的素材包括两部分来源,一是各种词表、术语表,二是来自科技文献中作者的关键词和互联网用户检索的关键词。按照理、工、农、领域采集国外叙词表、分类法、术语表等,并对其进行对比分析和评价。根据遴选标准从来源词表中遴选出骨干词表。通过对NSTL海量科技信息资源中的作者关键词和用户检索词进行统计分析、评价,遴选确定作者关键词、用户检索词集等。

超级科技词表基础科技词库建设:对已收集素材中的海量科技术语进行形式化汇总、整理、规范、去重、分类等处理,按照统一的基础科技词库元数据结构标准,建设基础科技词库。其中主要解决不同词表等异构数据的同构化表示(包括术语表达,属性的继承等),同形异义、异形同义和同形近义等问题。

超级科技词表规范概念集建设:超级科技词表的核心是概念,通过对基础科技词库中科技术语进行词形规范、词义规范,并按照概念遴选标准遴选概念,确定概念的规范名称。以概念为核心,以继承来源骨干叙词表的原有关系为基础,通过概念与原有叙词表来源术语的语义关系,以及概念间的共现关系进行关联,形成以概念为核心的概念集合。通过概念定义、概念范畴、概念间的关系、概念的规范汉译名以及概念被使用的信息多种方式加以完善和扩充。通过规范概念集的建设,可以实现来源词表、术语基于概念的整合;重点解决同义表达的问题。

超级科技词表范畴体系建设:范畴是概念的重要属性,用来说明概念所适用的学科或所归属的类。对于文献信息的主题聚类、分类组织及浏览具有重要意义。同时,范畴体系的建设也是科技文献信息通用本体建设的基础,有利于控制通用本体的维度和颗粒度,便于建立通用本体与超级科技词表概念的映射关系,有利于解决因学科交叉、表达产生的维(粒)度不同、冲突和重叠等方面问题。超级科技词表范畴体系在借鉴或复用现有的范畴体系的基础上,充分考虑主题概念和文献的实际分布,面向未来的应用,确定超级科技词表范畴体系的规模、结构特征和描述机制。

5.STKOS在科技图书文献服务平台的应用实践

建成的科技领域的超级词表能够支持对科技文献信息在概念层面的自动标注,一定程度上支持自然语言的检索,支持一定意义上的双语检索,支持基于概念层面的智能检索,包括扩检和缩检,支持基于关联词表的主题聚类等。在实际应用中人们更愿意使用科技自由词进行全文检索,STKOS意义在于通过建立受控优选词与自由词之间的映射,实现信息资源的自动标引;对用户检索而言,用于检索词的扩展,发挥引导作用,而不是早期的检索约束。此外,STKOS中的范畴类目具有较强的结构性和丰富的语义关系,能否作为科技领域浏览的知识框架,提供科技信息的分类导航。

自动标引:自动标注包括概念标注、学科范畴标注以及关键词标注三部分。其中,概念标注以STKOS基础术语为标注词典,对文献标题、摘要等文本信息进行处理,综合考虑位置、词长等因素改进TF-IDF算法,制定的权重阈值,控制术语的标注数量,降低标注结果中的噪音。学科范畴标注同样依据STKOS词表,标注概念对应的范畴,并制定范畴合并与遴选的规则,标注范畴号和范畴类目。关键词标注主要针对原始科技文献元数据中关键词缺失问题,从未登录词和最终标注的概念中进行遴选,在标注的同时完成关键词与词典规范术语的映射。

扩展检索:扩展检索是词表在搜索引擎中非常典型的应用。考虑到用户在检索过程中面临的问题往往是信息量过大,在实际应用中智能检索系统中采用了扩展提示方式,而不是由系统自动对检索词进行扩展检索。检索扩展提示包括输入、同义词、语义关系三个层面。首先,在用户输入关键词时,系统采用简单字符匹配方式查找由历史检索词、收录文献关键词、STKOS词表组成的词汇集合,实时给出输入提示,提升界面友好度。同义词提示和语义关系提示分两个区域在检索结果列表页面展示,扩展由用户的点击行为触发。其中,同义词提示是利用STKOS词表中概念和基础术语的映射关系实现的,只出现存在等同和替代关系的词汇,即词形不同词义相同;语义关系则与之相反,提示的是那些同形异义的词汇,并且以树形方式给出提示词的范畴及邻近的上位词,支持用户点击树形结构查看更详细的语义关系。

引导式检索:集成STKOS词表数据,允许用户直接浏览词表内容,选定规范概念/术语,用选定词汇进行检索,有效提高检索效率。也可在用户检索过程中,通过同义词、反义词,规范概念,概念范畴等角度多角度提示用户进行引导式检索。

关系发现:NSTL智能检索平台实现的关系发现是一种交互性立体式的检索应用。以文献元数据和STKOS词表数据为基础构建知识关联网络,采用可视化技术,以检索结果集为对象,展现资源、主题、人物、事件四大类型实体及实体之间的关系,支持渐进式探索。关系发现应用中主要包括三个重要功能。一是以检索得到的文献集合为基础,采用图的形式展示不同知识点及知识点之间的关系,支持用户点击任意节点进行浏览,可以跟随知识点之间的链接扩展到更大的节点空间,突破检索结果集合的限制。二是专注于一篇文献,观察它在整个节点空间中与其他节点之间存在的关系,支持渐进式的探索。三是在一次或多次检索的结果列表中收集关注的实例(如作者、论文、机构),通过实例分析功能在整个节点空间中观察它们之间的关联关系。

跨语言检索:STKOS词表中的条目拥有中英文两种表述,利用这一对照关系实现跨语言检索功能。

6.结束语

信息服务日益发达的今天,直观的终端用户检索和服务信息在系统中无缝流动,迫使系统建设者寻找到新满足需求的方法,很多都是将词汇隐藏在幕后,但是词表作为一种有效的词汇规范工具并没有被遗失,它对从主体领域分面分析,同义词聚合到概念关系识别等等依然是具有重要作用,其发展呈现出数据格式多元化、多表集成、从术语模式向引导概念模式的本体化转变等发展趋势,其基本功能也悄然发生变化。在新的应用环境下,词表规范不再是一种约束,而是一种引导,融入在文献服务的方方面面,从而焕发新的生机。

 

*本文为国家十二五科技支撑计划 “信息资源自动处理、智能检索与STKOS应用服务集成”课题成果

 

 

参考文献

词表的自动丰富——从元数据中提取关键词及其定位,北京大学 王军 2004

《我国分类表与主题词表发展与近期任务研究》  哈尔滨 图书馆建设 2013年第2期;顾颖在《语义网环境下国外医学受控词表的发展及趋势》

李育.传统知识组织系统的重构及其在网络环境下的应用西安 情报杂志[J].2011,30(7):p114-118.

贾君枝简单知识组织系统与汉语主题词表[期刊论文]-  北京 中国图书馆学报 2008(01)

张士男;宋文《科图法》SKOS描述方案设计[期刊论文]- 北京 现代图书情报技术 2010(06)

韩丽影,,李岩,王晓云,刘晓鹏.大型集成词表SKOS描述的应用探索.第二十六届全国计算机信息管理学术交流会论文集[C].p12-18.

顾颖,湛乐.语义网环境下国外医学受控词表的发展及趋势北京  中华医学图书情报杂志[J].2014(8):p1-6.

李育.传统知识组织系统的重构及其在网络环境下的应用西安 情报杂志[J].2011,30(7):p114-118.

王莉,梁冰,白海燕.以数据空间理念建立关系发现应用——NSTL智能检索平台的实践.数字图书馆论坛[J].2014(6):p8-54.

 

 

    男,1974年出生,高级工程师。主要研究领域为科技文献网络信息服务,数字图书馆技术研究等。

乔晓东  男,1965年出生,研究员。主要研究领域为科技信息资源建设、科技信息管理与服务,数字图书馆建设、信息技术应用等。

    女,1974年出生,研究员。主要研究领域为科技文献服务体系研究,科技信息知识组织研究,文献标准制定等相关工作。