索引语义扩展的探讨
王 梅
(武汉大学图书馆 430072)
索引系统主要研究信息的表示、存储、组织和访问。索引主要是标引信息资源外表特征和内容特征,建立相关参见,形成相应索引数据库,基于索引词匹配的查询,通过布尔逻辑模型、模糊逻辑模型、向量空间模型或者概率模型来提高查准率。由于索引词匹配技术很难解决一词多义的现象,相关参照很难解决不确定的相关关系,往往会检索大量的无关信息。近年来,为了提高索引的利用率,索引系统利用语义技术、超链技术、语义网检索技术和知识处理技术,促进索引系统向更高层次发展。本文主要以索引语义为主线,讨论索引语义扩展的方法和技术,结合信息资源管理系统的应用,探讨索引语义功能的实现。
1 索引语义的理解
索引语义目前没有明确的概念。我们可以从相关词中获得启发。
语义是语言形式所表达的内容,不仅指词义、还指短语义、句义乃至句群、段落、篇章的意义[1]。
潜在语义索引(Latent Semantic Indexing)是S.T.Dumais等人提出的。其基本思想是文本中的词与词之间存在某种联系,即存在某种潜在的语义结构,因此采用统计的方法来寻找该语义结构,并且用语义结构来表示词和文本[2]。
语义Web(Semantic Web)是Web创始人TimBerners-Lee在1998年提出的。其目标是开发一系列计算机可理解和处理的表达语义信息的语言和技术,以支持网络环境下广泛而有效地执行自然语言处理和理解的任务[3]。
根据以上语义、潜在语义索引和语义Web的概念理解,索引语义是索引形式表达的内容。索引包括语法、语义和语境,语法和语境都是为索引所要表达的语义服务的。索引语义是基于索引的基本方法,描述索引款目、条目和标目之间的关联,核心是在索引款目的相互关系中定义索引的含义。索引语义一般要具有类、关联、状态、实例、规则和消息等语义元素,为在计算机系统中处理、加工、利用信息资源而开发的内容逻辑标识,被应用于一个提供语义规则的大型索引语境中。索引语义系统是基于元数据标准和本体描述索引款目、条目和标目,依托语义Web实现索引语义的判断、推理功能,提供基于语义的网络信息检索。
2 索引语义的扩展
从索引语义的本体来看,在索引方法出现时,人们就注意到对索引外表特征和内容特征描述,对不同类型的索引词进行规范控制,对索引词关系属性利用参照系统,基本形成索引语义雏形。随着Web技术的广泛应用,XML语言、本体系统、语义Web等技术的开发,为索引语义向索引概念语义、索引元数据语义和索引超链语义方面扩展奠定了技术基础。
2.1 现代索引方法
现代索引方法已形成相关基本语义圈。索引词汇是索引点,索引句法形成索引线,索引款目生成索引面,参照系统建立索引网[3]。现代索引方法建立了索引语义的基础,索引语义体现在以下几方面:
2.1.1 索引规范系统
索引词如同自然语言一样,客观存在同义异形词,同形异义词,为了统一索引词,索引系统采取了索引规范控制。索引词自动规范控制的核心和依据也就是索引词机读规范文档,也即索引词表。标引和检索是通过对照规范文档,根据所指引的关系而自动建立起来的索引系统[3]。
2.1.2 索引的参照系统
索引语义揭示是参照系统。参照系统是控制同义异形的见参照和控制相关词的参见参照。参见参照主要对意义相关的词进行词义规范控制,包括各相关词、上位词、下位词。利用词形、词义规范控制在各相关主题词间建立网状结构,自动生成索引的参照系统[3]。
2.1.3 索引句法的标识系统
索引句法是利用引用次序、功能词、职号和联号标识系统。索引中的句法主要揭示索引词之间关系及其排列次序,排列次序也是索引词的连接方法。描述词间关系的另一种方法是使用职号和联号。用职号表示各词所充任的角色;用联号连接多主题文献中同一主题的不同语词[3]。
2.1.4 现代索引方法的语义扩展
现代索引方法是索引语义的理论基础和技术依据,但现代索引的方法存在索引词控制孤立,语义结构不清楚,人工干预太多的问题。根据现代索引方法在语义方面存在的不足,在分析了现有的各种索引系统、专题特色库系统、数字图书馆和知识处理系统,发现索引语义开始向索引概念语义、索引元数据语义和索引超链语义方面扩展。
2.2 索引概念语义的扩展
索引的最小组成单位是索引词。索引词是从文献题名、文摘、正文或者出处等直接抽取,没有经过任何规范化处理并用作标引的语词。采用索引词标引存在若干不足,比如:索引词与概念之间非一一对应,影响查全率;索引词之间的关系隐含,查找文献时选择检索词的预见性较差;索引词间没有语义关系,容易出现误组配,从而导致查准率下降,因此,需要寻找解决索引词现有的问题。随着知识处理系统研究的深入,概念、本体等新方法出现,促进了索引词向索引概念扩展。
2.2.1 索引概念
概念(Concept)是客观事物或现象在头脑中的反映;概念是在客观事物或现象的基础上概括而成的[4]。本体是描述事物的本质,本体理论所有的公理在基础概念化的任何可能世界中都必须是成立的[5]。本体是基本概念的特征说明,用节点表示概念的有向图,将概念分成不同方向:对象、事件、属性,节点间的连接表示概念间的关联。在索引体现为索引概念,把一组概念及概念之间的关系分析和建立索引,用于信息资源的表示、共享和互操作。
2.2.2 索引概念的标引
在信息资源检索系统中,概念集是其核心。概念集中给出了各个概念的定义和概念之间的相互关系。根据概念集,系统可以对收集到的信息资源进行分类和语义标注;在概念集的协助下,能够使用户对要检索的东西定位得更快、了解得更深入;根据概念集,可以规范用户的查询信息来提高查询效率。
从信息资源共享的角度看,可把本体和概念视为同类,但应用在不同领域,会建立不同本体。本体可以被看作是一种概念的显式说明或表示,是对客观存在的概念相关关系的描述。从表面上看,本体对问题域的描述与索引词表没有太大的区别,也是许多名词的集合,但两者存在着很大的差距。本体采用的文法和公理一般是精确的形式语言、精确的句法和明确定义的语义。这种方法使问题域中的概念与概念、概念与对象、对象与对象之间的关系以及在问题域中对象上所施加的约束明确定义,而不是隐含在分析者的头脑中或实现者的程序中,从而大大减小对问题域中概念和逻辑关系可能造成的误解。
概念标引系统包括:(1)概念集及概念集管理系统:在领域专家的帮助下,建立相关领域的概念集,概念集中存储系统内对领域涉及的概念及其相互之间的关系以及对领域内基本公理知识的统一认识,并提供查询、修改、增加、删除等管理概念集的工具;(2)概念标引:分为人工标引和机器标引。首先分析信息源,并按照概念集中的定义对信息资源进行分类、索引和语义标注,将标注所形成的元数据存入系统的数据库中。(3)推理引擎:利用概念集中的概念对资源内容推理,利用概念集的定义元数据对资源进行编码,并利用概念集进行语义推理和其他智能处理;(4)查询引擎:接收用户的查询请根据概念集确定用户查询的概念及概念间联系,从系统数据库中匹配出符合条件的索引集合,将查询结果提交给用户,实现语义检索[6]。
2.2.3 索引概念的应用
美国国家医学图书馆(The National Library of Medicine,NLM)研制的医学文献分析与检索系统(MEDLARS)是目前世界上最大的医学文献检索系统。系统初期是利用叙词表揭示语义关系,但是对概念间关系揭示并不充分。NLM于1986年开始了UMLS(Unified Medical LanguageSystems:一体化医学语言系统)的研究与应用,其目的是实现跨语言和跨数据库的情报检索。UMLS由四部分组成:超级叙词表、语义网络、情报源图谱和专家词典。超级叙词表是UMLS的核心部分,它收录了生物医学领域60多种词表和分类表中的语词,对于这些来源各异的语词,超级叙词表保留了它们在原来叙词表中的意义、关系等,并以概念为中心对超级叙词表进行组织。对于同一概念的不同术语以及不同的变异形式,超级叙词表采用三级结构模式,即概念(Ⅰ级) 术语(Ⅱ级) 词串 (Ⅲ级),将一个概念的多种不同术语连同多个变异词串有序地组织在一起。并且,超级叙词表中还定义了11种概念间的关系来识别不同概念之间的联系。如广域关系(RB)、狭域关系(RN)、其他关系(RO)、相似关系(RL)、来源中的同义关系(SY)、非特异性的来源相关关系(RQ)、上位关系(PAR)、下位关系(CHD)、同位关系(SIB)、允许限制关系(AQ)和受限关系(QB)。UMLS的语义是由语义类型和语义关系两部分组成。2003AA版的语义网络设置了135种语义类型,为超级叙词表中的每一个概念分配最为专指的语义类型,并设置了54种语义关系来表达这135种语义类型之间的关系。这些语义关系除了最基本的等级关系外,还有空间关系、物理相关关系、功能相关关系、时间相关关系和概念相关关系共六大类[7]。
UMLS已被广泛应用于信息系统的智能化检索、自然语言系统研究、专业词表的编制、自动标引、医学专业搜索引擎的开发、医学图像的描述及获取、课程分析等方面。但是,对语义的应用开发还不充分,UMLS语义将需要进一步开发和利用。
2.3 索引元数据的语义扩展
元数据是关于数据的数据,在信息资源管理系统和数字图书馆中提供完整的信息描述形式,为分布的、多种数字信息资源有机构成的信息体系提供标准规范。
2.3.1 索引元数据
为了扩展索引规范描述和索引的信息共享,索引也采用了元数据规范。元数据由描述元数据、功能元数据和管理元数据组成。元数据包括语义、结构及句法。语义指的是元数据的元素含义;结构描述了各个元数据之间的关系;句法规定了元数据的表达方式[8]。
2.3.2 元数据描述与管理
元数据的描述与管理是针对信息资源对象类型,建立相应的专门信息资源对象元数据格式及其编码体系、使用指南、使用范例、编制模块;选择合适的技术平台,由信息资源加工人员进行元数据的选择、著录、审校、维护、管理,进行元数据整合,建立网上信息资源检索、发现、共享的元数据库。具体工作如下:
(1) 确定资源描述元数据。为了完整揭示信息资源的内容属性,确定核心元数据元素集、扩展集、限定方案,包括完整语义定义、关系、数据类型以及重复、可选的规定等。
(2) 确定功能元数据。包括使用权限、用户控制、利用推荐、利用评价等。
(3) 确定管理元数据。信息资源技术属性的描述,作为内容描述的补充。信息资源制作属性描述,作为信息共享的依据。
(4) 元数据置标方案,亦即怎样“使用”元数据,以XML给出命名空间。
(5) 技术实现方案,包括定义对象包结构,内部存储方式,索引方式,元数据抽取方案,结构化转换方案等等[9]。
2.3.3 元数据的应用
长江资源库是武汉大学图书馆专题特色库,我们从系统体结构上定义元数据方案,从本体的角度考虑各数据域之间的联系,利用元数据来实现语义扩展,使元数据方案能够满足信息资源整个生命周期的功能需要。具体做法:一是利用元数据语义规定来实现。长江资源库是利用CALIS专题特色库描述型元数据及其著录规则、CALIS专题特色库管理型元数据规范等标准。CALIS元数据标准规定核心元数据、元数据扩展,可以对信息资源的外表特征和内容属性描述。二是利用元数据的相关项来实现相关语义。元数据的相关项很完整,我们选择组成、被组成、并列、参照,确定了资源记录与记录之间的关系,并用超链实现链接。在信息资源字段、记录和数据库之间的运用起指导作用。三是随着信息资源系统的整合,支持在一定的协议下的统一检索,要求支持分布式索引。我们采用OAI开放标准建库,CALIS专题特色库中心通过OAI接口远程收割元数据,元数据集中采集后建立综合索引,通过频道发布方式进行资源库动态更新,实现一种动态的元数据服务,并支持元数据的灵活扩展和自适应性。
2.4 索引超链语义的扩展
网络信息资源系统需要利用索引系统,但网上的索引系统与传统索引有很大区别,其中最核心的是嵌入超链功能。当索引制作时,运用HTML置入了其他索引的编码,创建了通向其他索引的超链接。当用户激活链接时,浏览器就向所链接网站的服务器发出要其传输信息的请求,服务器就会将储存在其上的信息传输给浏览器,并呈现于用户的电脑屏幕上,这就是超链接语义的实现过程。
2.4.1 超链语义的描述
超链从一个端(链源)指向另一个端(链宿)。链源一般是具有HTML功能的项目,链宿可以是任何内部和外部Web资源。超链的语义简单地说就是链源与链宿之间的语义关系。这种关系可以分两个层面,即结构上的关系和内容上的关系,称之为超链的结构语义和内容语义。超链的结构语义是指链源与链宿在Web目录层次结构中的关系以及超链的方向;超链的内容语义是指链源和链宿在页面内容上关系以及超链的角色。
2.4.2 索引超链语义的依据
索引超链语义是利用超链原理,在索引系统上定义结构超链语义和内容超链语义,实现索引非线性组织。
超链内容语义包括:(1)领域链(DomainLink)。这类超链包含的语义信息是它所指向的有关某一领域的或几个相关领域的主要内容。(2)标题链(TitleLink)。这类超链包含的语义信息是对某一信息的具体描述,超链文字是对这一信息的概括。(3)相关链(RelatedTitle Link)。这类超链包含的语义信息是在语义上是相关的链宿的主要内容与链源的主要内容,超链本身不属于链源的主要部分。(4)参照链(ReferenceLink)。这类超链包含的语义信息是对链源所表达的意思的补充、解释、证明或反驳,或者相反链宿的内容。(5)文档结构链。这类超链包含的语义信息都是同一文档(这里的文档由多个页面组成)组成部分的链源与链宿,且具有先后顺序。这类超链作用仅仅是连接各组成部分,超链的定义与页面的语义无关[10]。
2.4.3 索引超链语义的应用
在长江资源库建设中,我们利用超链来实现索引语义扩展。网络是一个大的信息集合,超链就是链接不同信息单元的纽带,其中必然隐含这些信息单元之间的内容语义关系,而且超链本身和超链所在的信息单元之间也包含了一定的内容语义关联,因此,利用超链技术是投资小,见效大的语义扩展方式。我们的做法是:一是核心特征字段设置超链属性,如责任者、主题词、来源名称等,有利于进行特征语义扩展;二是相关字段设置超链,有利于类属语义实现;三是不确定相关字段超链,利用加权算法,自动计算语义的相关记录,并实现超链;四是导航树实现结构语义,分别设置了学科分类、特定分类树性,便于跳跃浏览信息;五是利用图式,实现直观、平面、断层的信息浏览。
3 结论
索引语义扩展问题现在还处于研究和实践的初步阶段,还有许多未认识和无法解决的问题需要我们继续关注和探讨。
3.1 综合的多特征索引语义
资源对象复杂,资源处于不同的时空环境就会有不同的语境,对于同一种特征,有不同的表示方法。如图书包括文本、图像、图表等多种特征。综合的多特征索引语义可以从不同的角度表示资源的特征,而有机地组织这些多种特征,使应用能够调用合适的特征来支持查询,并按照用户的查询要求合并各种特征的检索结果。
3.2 高层概念和低层特征的关联
实际上,人们在日常生活中习惯使用简便的事物概念,属于底层特征;在查询中,系统使用概念,标识语义概念,属于索引的高层内容。过去在基于底层特征进行检索方面的研究已经做了很多,如果能够建立这些底层的特征与高层语义概念的关联,就能够使计算机自动抽取索引的语义。虽然建立起这种关联是非常困难的,但在响应时间和大容量库约束的前提下,从信息检索、分类和排序的角度,可以采用语义模板、用户交互、机器学习、神经网络等方法,以及在用户交互的帮助下,突破从底层特征获取语义的壁垒。
3.3 内容语义的结构化
内容语义需要介入资源对象内容的揭示。内容语义不仅是文本知识词义、句义,还应包括音频音节、视频镜头的内容语义。在多个层次上组织内容的模型很难建立。这种内容上的关联关系本身是很难界定的,要给出一个全面而普遍适用的内容语义结构就更难了,即使给出了,也很难用自动化的手段来实现,这是今后有待研究的问题。
参考文献
1 石安石著.语义论.北京:商务印书馆,1993
2 Deerwester S., Dumais S.T., Furnas G. W. et al Indexing by LatentSemantic Analysis, Journal of the American Society for Information Science,1990, 41(6):391~407
3 王知津著.现代索引文摘法.北京:北京图书馆出版社,1999.5
4 伍谦光编著.语义学导论.长沙:湖南教育出版社,1991
5 张维明编著.语义信息模型及应用.北京:电子工业出版社,2002
6 邱树雄等.语义网络及其Web信息检索机制研究.计算机工程,2004,30(23):118~120
7 朱伟丽,肖晓旦.MEDLARS系统检索语言语义网络的构建与作用.高校图书馆,2003(5)
8 赵 亮.元数据应用:语义、结构与句法.图书馆杂志,2004(7):49~55
9 刘 炜,张 亮.数字图书馆的体系结构与元数据方案.情报学报,2003(2):148~154
10 奚伟鹏,李 昕,武港山.超链语义分类系统的设计与实现.计算机应用,2004(11):163~167
王 梅 武汉大学图书馆研究馆员。