近年来受控词表宏观结构显示的研究进展 师绮惠 侯汉清
发布时间:2018-09-25  浏览次数:24

近年来受控词表宏观结构显示的研究进展

师绮惠  侯汉清

(南京农业大学信息管理系  210095

 

    通过对ISO2788-1986GB13190-1991ANSINISO Z3919-2005部词表编制标准中宏观结构部分内容的比较分析研究,可知叙词表的宏观结构显示方式在不断完善。概念图、本体显示、详情显示等一些新的词表可视化显示开始投入使用,而以叙词表依托发展起来的OverViewRenardus项目也在积极的研发之中。叙词表已不仅仅是标引查词的工具,它已逐渐成为网络信息资源的一部分,并运用到构建知识组织系统中,为用户提供更方便、快捷的服务。本文就叙词表近年来宏观结构显示的进展情况进行一些分析比较。

关键词  叙词表  可视化  概念图  本体  OverView  Renardus

 

受控词表是分类表、叙词表、可检词单和同义词环的集合体。而叙词表是受控词表的一员,它的宏观结构是指各种分类表、词表、代码表的体系结构。[1]它通过字顺索引、范畴索引、轮排索引等显示方式为用户提供检索查词服务。叙词表兴起于20世纪60年代,那时的叙词表在其宏观结构中引入范畴索引、词族索引,并通过词族图、同心圆、箭头图、方框图等显示方式来增强词表的显示。但是由于当时计算机水平落后,当时这些图形显示未能成功地发展为分类法的信息可视化。在随后的二三十年里,随着信息量的增长,叙词表不断完善发展起来。到21世纪初,在网络、计算机技术的支持下,叙词表的可视化技术也迅速发展起来。概念图、本体等一系列可视化显示技术被广泛地运用到词表中,为用户提供更加方便快捷的服务。本文通过对ISO2788-1986, GB13190-1991, 以及ANSINISO Z3919-2005,三部词表编制标准对词表宏观结构的编制要求,以及一些词表宏观结构显示新的进展,对受控词表结构显示进行一些分析比较。

1  从线形显示到可视化显示

线性显示是传统词表显示的一种惯用显示方式。它对知识采用从总到分,层层推进的线性显示方式,有着很强的系统性。但因其类目层次过于复杂和庞大,加之词间关系不能一目了然,给检索用户和标引用户的查询检索带来了一定的难度。在网络环境下,随着信息资源的急剧膨胀,线性显示方式已远不能满足用户的需求,而在此背景下发展起来的可视化显示凭借其良好的可视化功能成为了信息时代的主角。可视化就是把数据信息和知识转化为图形、图像等比较直观的视觉形式的过程。[2]对叙词表的词间关系进行可视化,能够帮助用户更直观地感知词间关系,了解叙词的涵义,更便捷地对所需语词做出判断和选择。[3]使得用户检索起来更加得心应手。

11  概念图

目前网络技术和计算机技术发展迅速,而网络信息又处于急剧膨胀状态,这使得用户在使用,查询网络信息资源的时候出现了迷航(disorientation)和信息超载(information overloading)等问题。[4]概念图是语义网络的可视化表征,是人们将某一领域内的知识元素按其内在关联建立起来的一种可视化语义网络。它以视觉化的形式阐明了在知识领域里是怎样使概念之间产生关联的,并且揭示了知识结构的细节变化。概念图中的词除了来自受控词表中的叙词外,还收入了一些由自然语言转化过来的词,容量很大。它通过节点,连线和叙词来体现词间关系。图中省略了符号,使词与词之间的关系明了。同时,还为每个叙词设置了超链接,为用户提供实时的详情显示服务。概念图克服了复杂的词间关系在传统的纸质或界面显示中受空间因素制约的不足,增强了词表的可视化效果,同时也便于对词表进行动态的更新(见图1)。1  光合作用的概念图[5

通过概念图对与光合作用这一主题的相关概念进行了实时显示,如:“photosynthesis/ATP(光合作用/ATP)”, Photosynthesis/Carbon dioxide(光合作用/二氧化碳)”,“chlorophyll/ Photosynthesis(叶绿素/光合作用)”,“energy/Photosynthesis(能量/光合作用)”等,通过连线将这些概念联系起来,而且这些相关概念以组配形式显示,同时一些零散分布在词表中的概念也进行了有效的聚合,使用户查找起来更直观。

12  本体显示

本体是领域内部不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等) 的一种语义基础。一个本体其实就是一个用某种本体语言表达的控制词表, 该语言以语法规则限定了词表术语表达具体领域内容的方法, 该语法形式上规定了本体控制词表的术语如何共同使用。[6]本体可以用自然语言和半自然语言编写,它不再是词族图显示的二维结构,而是可以在三维空间中伸缩的网状结构,是一个强大的知识库。如由斯坦福大学医学院的医学情报学研究组开发的Protégé[7]本体编辑工具。它可以帮助我们实现词间关系可视化。最终用户可以利用可视化技术,使得叙词表不再是信息机构的专业工具,而是能被更多的人所掌握使用的词表。叙词表的编制、显示也更加灵活(见图2)。

 

Image1-fs3

 

 

2  叙词表多重等级关系的可视化[8

通过图形显示界面来显示词间关系,如计算机管理是族首词,它有五个下位类,它们分别是设备管理,存储管理,中断系统,处理机管理和数据管理,位于叙词右上角的数字说明未显示出的词间关系数量。通过sub指向下位词,我们可以较容易的知道两概念之间的属分关系。例“联机操作”属于“操作系统”。同理通过super指向上位词,我们也可知道“操作系统”属于“计算机系统”。SA1是新建的一种对象属性。这样两叙词便可通过属性联系起来。如此不仅词间关系清楚,而且还可以根据自己的需要,通过建立词间关系扩充叙词。

13  欧盟的Renardus

Renardus项目就是一个由丹麦、芬兰、德国、荷兰、瑞典、英国的图书馆与研究中心共同合作开发的集成化的网络信息资源门户站。[9]它的主旨是建立一个欧洲的学术性主题网关“代理”服务:用户可以通过一个单独的Web界面检索和浏览,来自很多现有的分布式质量控制网关和欧洲其他因特网资源集合的经过整合的一致的数据,以支持学习和研究。[10]它像一种“网络协议”,通过一种默认的知识组织规则,使各国之间的信息交流更加通畅。同时也为各国的信息交流提供了一个平台。它把各国的信息资源按一定的方式进行分类管理,之后又进行整合。这样用户通过它,便可以访问各国的图书、信息资源,巧妙地实现了资源的共享。它用一种很直观的扇形显示来体现词间关系。类目的主题层次清楚,每个类目都是一个链接,通过链接,用户可以了解每个主题款目的详细内容(见图3)。

3  Renardus显示DDC等级的扇形图[9

14  OCLCOverView

这是OCLC研究署(OCLC Office of Research)的研究项目,这是定量文本信息的方法。利用DDC,通过三维信息空间对检索结果进行形象的判断。[9]用户输入检索词,系统通过三维图像来对检索结果进行说明,形象的利用立体的柱形图显示检索结果在各个类的相关度,而每个小方格的高度与检索出的文献数量成正比。即小方格越高,则检索出的文献数量也就越多。而这正是OverView的一大特点。对于检索结果,界面左边显示出检索词与检索词相关同类目的文献数量情况,界面右边则给出检索词的类号和注释。这样分类后的信息就能以定量的形式显示,直观的同时也更具结构性(见图4)。

fullview

4  OCLCOverView用可视化技术显示DDC检索结果的相关度[9

2  从纸本词表到电子词表

网络资源急剧膨胀,计算机技术也在飞速发展。词表被广泛的用于信息主题内容的存储和检索。除此以外,词表还凭借其强大的控词、聚词能力,在知识组织系统的构建中扮演重要角色。于是词表的载体形式发生了变化,由传统的纸质载体转变到现在的光盘、硬盘甚至是网络数据库等。与此同时,词表的可读性、可理解性也必须增强,于是词表的详情显示,网络导航技术等一系列技术便诞生了,下面逐一进行介绍。

21  详情显示

网络环境下的产物,可以将它描述为以一个点来显示一个面的过程。这个点是词表中的一个叙词或入口词,而展示的面是与这个词相关的所有内容所构成的叙词网络面。它通过提供超链接和选择的功能为用户提供与叙词款目有关的所有详细信息。这种显示的主要特点是除了具备传统叙词款目的D,S,F,C,SN等项外,还提供了叙词的详细注解和历史注释,还通过一个树状结构图来弥补等级关系显示不清楚的不足,充分做到了叙词内容详细充实,等级层次清晰(见图5)。

这是一个“kidney()”的款目,它有“Tree Number(树状结构号)”,Annotation(注解)”,“Scope Note(范围注释)”,“Entry Term(入口词)”,“See Also(参见)”,“Allowable Qualifiers(允许的限定词)”,“History Note(历史注释)”,“Entry Combination(组配的入口词)”,“Unique ID(唯一编号)”,“MeSH Tree Structure(树状结构图组成)”。与传统叙词款目相比,它有着详细的注解,注解中说明“kidney tissue or cell(肾组织或肾细胞)”在细菌培养和胚胎培养情况下所应选用的叙词的异同,如“radionuclide(放射性核)”可以参见“RADIOISOTOPE(放射性同位素)”,“RFNOGRAPHY(肾的X照相术)”等。在参见项指出了与肾有关的叙词:“Nephrectomy (肾切除)”,“Renel Circulation(肾循环)”。历史注释中指明了肾移植这个叙词在1962-65中和1966-89中的不同表示形式,1962-65:kidney transplantation,1966-89:kidney, transplantation。为了能更清楚的显示词与词之间的等级关系,在表的下方加入了一个树状结构图,图中指明了上下位类的关系,并通过缩格来显示类目之间的等级关系,与此同时在每个叙词的后面还附有“+”,这便于与再下一级的类目相连,使类目能够根据用户的需要有序的向下展开,最终使用户能看到整个叙词的全貌。而且通过超链,用户可以方便的回到之前检索的界面,而不会因类目展开太深而迷失方向。

5  Mesh叙词款目详情显示[5

22  路径等级显示

路径等级显示的一大特点是每一个叙词都是一个检索入口,每个叙词都是一个链接,这些叙词之间有着清晰的等级关系。不同于普通的等级结构,这种等级关系是横向展开的。用户可以查看当前的类目,也可以跳过复杂的等级,进入下一级类目,还可以再回到初始的类目。使用户在庞大的类目体系中不至于走丢,而且检索查词时也不再受表严格的等级参照关系限制,检索更灵活自由(见图6)。6  路径等级显示[5

类目等级横向展开,例如其中的第八条,类目从“Organisms(生物体)”,“Eukaryotes(真核细胞)”,“Animals(动物)”,“Aquatic animals(水生动物)”,“Aquaticmammals(水生哺乳动物)”,“Marine mammals(海洋哺乳动物)”,“Whales()”,“Baleen whales(须鲸)”,“Bluewhales(蓝鲸)”,依次向下展开。用户可以点击每一个主题词,通过超链接了解更详细的情况。与传统等级结构相比,类目的延续性更好,加之通过一步一步的指引,使每个叙词的类目归属更清楚,类目显示也更直观。

23  超链接导航

超链接导航不仅能提供与受控词表的链接,还提供了与其它主题内容,甚至是与其他网站的链接,这样大大扩展了用户的检索范围。而链接点又是基于词表中的属分款目、参照款目、范围注释、历史注释、分面、树状结构、分类注释和类目结构以及单独的款目记录来进行设置的。词表在这已不再是提供查词那么简单了,它成了一种组织信息的方法,通过对从自然语言中抽取的关键词进行词间关系控制,将信息组织成一张有序的关系网,从而实现信息从无序到有序。它以表格的形式罗列相关词,每个词都设置注释项、用项、属项、分项,之后再用一个简单的双向显示来直观展示其等级结构。从多角度显示,词间关系清晰,类目等级完善(见图7)。7  超链接的其它显示[5

3  对中国分类主题词表的建议

计算机技术和互联网的飞速发展给受控词表的编制和显示创造了良好的技术基础。受控词表其强大的收词和控词的能力使其成为各种数据库和网站,信息检索系统的开发设计基础,成为知识组织系统的一员。它已逐渐成为网络信息资源的一部分,也成为整合信息资源的有力工具。为了能更好的为用户服务,叙词表以前庞大复杂的结构已逐渐被简单的图形显示和人性化的用户操作界面代替,用户的检索更具自主性和可控性。而实现这些服务又是以词表的编排,词表合理的宏微观结构为依托的。

国内用户最多、规模最大的分类表和叙词表――《中国分类主题词表》正是在这样的背景下产生的,而《中国分类主题词表》电子版为用户提供了更为人性化的服务。它通过软件以多文档、多窗体的动态形式为用户显示分类法――主题词表的体系结构,实现了一体化标引和检索的功能,克服了印刷版的线性体系结构和检索效率低,检全率、检准率低等功能缺陷。通过超链接、多标识匹配检索、结构化的全文检索等检索功能,来提高检索查询的效率。而其中的分类树视图则具有“鸟瞰全貌,触类旁通”的作用,以树视图来展现整个分类体系,在实际应用中,针对查看不同概念的需要,通过生成不同的分类树视图,形成相应的语义网落。[11]扩大了用户的检索视野,提高了检索质量。可以说是向前迈进了一大步,但也存在着不足,对此提出几条建议:

1)建议在《中国分类主题词表》中恢复属分关系显示,并增加族项显示。《中国分类主题词表》的浏览表是以逐大类和逐个主题词的固有逻辑顺序集合为显示单元,通过顺序浏览代替不同方式的检索。[11]但每个主题款目没有采用属、分、参、族关系的等级全显示,要实现任意款目词的等级全显示,则需通过族首词的二次点击才能实现,这给查词选词带来了不便,因此建议恢复属分关系显示,并增加族项显示

2)建议在《中国分类主题词表》中加入轮排显示,以提供多种检索入口。虽说《中国分类主题词表》已有比较完善的字顺表,但字顺表不具备替轮排索引能提供多个检索入口的功能,特别是对于对词表不太熟悉的初学者,轮排索引能帮助其快速熟悉和掌握词表中的叙词。

3)建议及时修订规范化的词表编制标准,并适当借鉴国外的研究成果,对词表中字顺表,范畴表等的显示形式,词间关系控制等进行更新,以满足信息膨胀,词表容量不断增长的需要。

4)增强《中国分类主题词表》的可视化显示。《中国分类主题词表》较传统的词表增加了多窗体、超链接等可视化显示。但其可视化程度依然不是很高。可借鉴国外的一些可视化技术,通过编制一些软件来增强词表的可视化,完善词表功能。

 

参考文献

1  马张华,侯汉清.文献分类法主题法导论.北京:北京图书馆出版社,2002

2  韩丽影,刘伟.信息可视化――知识服务网站的新形象.情报理论与实践,2005(6)

3  王子熙,马蕾.《汉语主题词表》词间关系的可视化.四川图书馆学报,2006(2)

4  瞿�,雷菡.基于概念地图的适应性网络信息服务系统研究.图书情报工作,2007(1)

5  ANSI/NISOZ39.19-2005 Guidelines for the Construction, Format, and Management ofMonolingual Controlled Vocabularies. Published by the National InformationStandards Organization, NISO Press,Bethesda, Maryland,U.S.A.

6  李健康,张春辉.本体研究及其应用进展.图书馆论坛,200412(6)

7  李景.本体理论在文献检索系统中的应用研究.北京:北京图书馆出版社,2005(3)

8  刘俊,李华,侯汉清.叙词表词间关系可视化实验研究.中国索引,2007(2)

9  欧阳宁,侯汉清.网络环境文献分类法的可视化.图书馆杂志,2008(1)

10  王玮. 网络信息资源组织的新模式――主题网关.大学图书馆学报,20042

11  国家图书馆《中国图书馆分类法》编辑委员会.中国分类主题词表(第二版)及其电子版手册.北京:北京图书馆出版社,2006.8:155,150

 

师绮惠  女,1987年生,南京农业大学信息科技学院学生。

侯汉清  南京农业大学信息管理系教授,博导,中国索引学会副事事长。