网络环境下文献分类法的可视化 欧阳宁 侯汉清
发布时间:2018-09-25  浏览次数:10

网络环境下文献分类法的可视化

欧阳宁12   侯汉清1

1南京农业大学信息管理系210095

(2中国药科大学图书馆  210009 )

    信息可视化是情报学研究的新领域,本文回顾了文献分类法可视化的发展及其在国内外网络环境中的应用,并探讨了用本体编辑工具实现文献分类表可视化的方法。

关键词  信息可视化   信息检索   文献分类   本体

 

1  信息可视化与文献分类法

信息可视化是将抽象数据用可视的形式表示出来,以利于分析数据、发现规律(信息)和决策制定。可视化的目的是洞察数据、发现信息,做出决策或解释数据。它是一种崭新的方法,为广大用户直观、方便地获取所需信息提供了有效途径。信息可视化寻求人机合作,计算机将大量抽象的信息映射到图像上,人们通过图像的结构、特征等来理解认识从而获得知识。信息可视化的关键是将数据用有意义的图形表示出来,目标是显示出文献表示的一个抽象信息空间[12]。

目前国际上有各种文献分类法,例如《国际十进制分类法》(UDC)、《杜威十进分类法》(DDC),都是将信息资源的主题概念进行分类,用不同的代码表示一类信息资源的类别。目前,可视化系统主要采用树(Trees) 、图 (Graphs) 、地图(Maps)及虚拟现实(Virtual Reality)等隐喻方式,完成分类法及其结构的可视化。本文将介绍网络环境下文献分类法的可视化进展,并探索用本体工具实现分类表的可视化。

1.1传统文献分类法的显示

文献分类法的分类体系为等级列举式结构,按照学科知识门类层次划分,并把划分出来的子目一一加以列举,形成了一个具有良好结构特征的知识一览表。传统的文献分类法是典型的树型结构体系,对知识的组织采用从总到分、从宽到窄、层层划分的方式,形成比较纵深的等级结构,分类级次多者达8 级以上,其优越性在于较强的系统性和族性检索功能。但是,它那典型的“线型方式”给读者利用分类检索带来很大的困难。如果用户在查询某一文献的类号时,只能将具有分类号的每一个类目看成是一条直线上的一个点,查询类号必须从该直线的起点开始,然后按照固定的单线顺序,一一往下查找,检索时必须严格遵循其既定的线形体系。这种直线型列举式的“树状”结构不能反映现代科学的交叉和综合性发展特征,不能满足类目的多维检索,在一定程度上限制了标引用户和检索用户的多途径检索[3]。

60年代问世的、被称为“隐蔽分类法”的叙词表,在其宏观结构中引入了“隐蔽的分类”,诸如参照系统、范畴索引、词族索引,并用词族图、同心圆、箭头图、方框图等来显示。后者是情报检索语言的图形显示。但是由于当时计算机水平落后,这些图形显示未能成功地发展为分类法的信息可视化[4]。

1979DDC19版在其新出版的手册中,用地图来显示DDC的地区复分表,在地图的某一区域内标明其地区分类号,便于用户查找。这是图形化显示在分类表的首次尝试。

周宁曾在其《信息可视化与知识检索》一书中提出了设计图符集来表示分类法,即用一个个形象的图符或动画表示分类表的一级大类,用上级图符加注二级类目的知识概念表示二级大类,形象生动,使人一目了然。因为分类法的类目众多,少则数千,多则数万,类目并不容易设计出有针对性的、特色鲜明的图符,而且类目的上下位之间还要有统一性、继承性[5]。要实现这一构想,还有较大的难度。

1.2网络环境下文献分类法的显示

网络环境下超文本技术的运用可以多维展示类目关系,使文献分类法的树状结构改造为网状结构,因而具有更大的灵活性、动态性。运用该技术,可以根据知识门类之间的联系和使用需要,通过链接的方式,在相应的类目下重复反映,充分揭示类目之间的多维联系,不仅可以充分揭示事物的多重属性,使多重列类得以真正实现;还能通过对各种关系的显示,帮助人们理解信息空间的结构,快速发现所需信息,有效防止信息迷途。但是超文本的浏览方式,只能提供给使用者很少的概念,不能给使用者整体的、由点到面的全盘了解。因此如果能提供其他形式的浏览界面,在有限的屏幕空间中将所有相关信息呈现在用户的眼前,让用户对所涵盖的资源有一个整体、全面的了解,便可减少浏览的盲目性[6]。

如果说视窗版DDCDewey for Windows)的问世标志着机读分类法的成熟与实用化,DDC网络版(WebDewey)的研制则象征着分类法与网络的紧密结合,可以视为文献分类法可视化的开始。近年来大批问世的信息可视化软件,可以完成数据收集、集成、转换和映射,通过图像的变形、伸缩和位移,形象地显示主题与主题或对象之间的多种联系,动态地生成可视化的联系相关图,为分类法、叙词表及本体等知识组织系统(KOS)的可视化提供了技术支持。

2  网络环境文献分类法的可视化进展

2.1Renardus

这是一个在欧盟范围内开展的信息开发计划,目的在于提供一个集成化的网络信息资源门户站,成员包括丹麦、芬兰、德国、荷兰、瑞典、英国的图书馆与研究中心,包括64000个英文学术网站资源。简单地说,Renardus相当于主题网关,该门户站将自身网站的结构和DDC结合成一个开放的公用系统,把DDC用作不同分类法的共同转换语言,将信息资源完全按DDC的等级显示出来,用户通过DDC的分类浏览体系,通过超链接跳转到各类目的浏览界面上,可以浏览各类目局部分类体系的相关类目[7](见图1)。

1  Renardus显示DDC等级的扇形图

这种扇形图非常直观,读者可以通过对主题的层次进行浏览,页面的每个类目就是一个链接,鼠标放置其上就显示完整的类名,用户可以通过点击类名去查看上、下位类或相关类目。在浏览时,发现有时会出现显示信息不完整现象(并未显示与所查找的类目相关的所有类目层次),这是因为网络原因,有些类目信息暂时不能使用。例如图1中显示,查找类目“Library& Information science(图书馆学情报学)”,图中会显示四级类目,包括类目“Library & Information science”的三个下位类“Operations of libraries, archives, information centers(图书馆、档案馆、情报中心的操作)”、“Specific kindsof institutions(特定的机构)”、“Readingand use of other information media(其他信息媒体的阅读和利用)”和这三个下位类的子类“Bibliographic analysis and control(书目分析与控制)”、“Services to users(用户服务)”、“Maintenance and preservation of collections(藏书的维护和保管)”、“Standard subdivisions(标准复分)”、“Information storage andretrieval systems devoted to specific disciplines and subjects(特定学科和主题的信息存储和检索系统)”、“Generallibraries, archives, information centers(一般图书馆,档案馆,情报中心)”,以及这些子类的下位类。不是所有的类目以及其上、下位类都能全部显示出来,但是双击图中任一类目,可以链接到新窗口查看该类目的详细上、下位类。图1Renardus显示DDC等级的扇形图

2.2OverView

这是OCLC研究署(OCLC Office of Research)的研究项目,旨在研究显示定量文本信息的方法,当前的研究是利用DDC,通过三维信息空间对检索结果进行形象的判断。OverView采用了信息可视化技术,当用户输入检索词后,检索结果将表现为由虚拟本体模型语言(VRML)构筑的一个三维信息空间,检索结果交叉地分布于这个DDC信息空间,柱形图显示检索结果在各个类的相关度[8]。图2中用10×10矩阵表示出100个小方框,标号从0099,是基于DDC类号的前两个数字。例如,004.600方框、538.8453方框。每个小方框显示的高度与其相对应的检索结果的文献数量成正比,小方框显示的高度越高表明这个类目对应检索结果的相关文献越多。用户可以选择图中Drill down按钮(其意思可以理解为扩展)去查看类目的细分,DDC类号随点击的小方框而改变。选定一个小方框后,用户可以看到窗口右边与这小方框所表示的类目的注释。目前系统包含44817DDC分类号及相关注释,另外还显示其对应的《美国国会图书馆标题表》(LCSH)9]。如图2所示,检索单词“Internet”,窗口左边显示在DDCInternet对应的类号794.81和注释,左边三维图显示与DDC类号对应的文献数量。用这种方法建立的信息空间的优点在于分类表的高度结构化与可度量性,分类号附加上类名与注释后具有比较丰富的语义,对于其他体系分类表的可视化,具有很好的借鉴意义。

2  用可视化技术显示检索结果的相关度

2.3《中国图书馆分类法》和《中国分类主题词表》

在国内的数字图书馆项目中,文献分类法的应用并不普遍。《中国图书馆分类法》编委会于2001年推出《中国图书馆分类法》4版的电子版。《中图法》电子版提供l5种途径的跨类检索,并提供5种不同匹配方式的组合检索;在保留其印刷版类目线形显示的同时,实现了类目的多层面、多窗口、超文本的显示和多种形式的等级显示。在《中图法》电子版中的超文本格式界面,被选类目除了包含和印刷版兼容的详细信息显示以外,还具有从当前类目向上级类目、下级类目或类目注释中指向他类的类目跳转的超文本锚点。如,分类法的交替类目、参照类目的类目注释中存在大量的通过类号或语词指向相关类目的线索,超链接技术使这些相关类目实现了节点之间的跳转。另外可利用《中图法》电子版在数字图书馆的导航站与检索系统中增加分类浏览界面,通过展示分类法的树形结构,增加了分类检索入口的语义性,克服了线形体系对类表类目多层次浏览的制约,引导用户在学科等级体系中扩检、缩检,最终查询到所需的信息(见图3)[3,10]。

《中国分类主题词表》(简称《中分表》)200410月推出用于计算机编目和检索环境的电子版。《中分表》电子版由一个主窗体和多个子窗体构成,子窗体由多个不同文档构成,简称分类表、主题表、词族表、浏览表,各子窗体之间可以相互联动(当某一窗口选中一个类目后,其他不同的窗口也都同时显示该类目);各子窗体均有两个显示小窗口,用户可根据个人习惯和查询需求自主切换窗口,有上/下显示和左/右显示两种显示方式。类目体系显示用展开和收缩图标,图标左边有“+号表明它是未展开的类目,图标左边有“一”号表明它是已展开类目,可以根据浏览的需要一级一级地把类目展开或折叠起来(见图3)。《中分表》各种浏览方式之间和各窗口之间的随意跳转,从根本上克服了线性体系对多层次浏览的制约,实现了用户基于内容的、多需求的一体化浏览和检索的功能[11,12]。

3《中图法》电子版                              图4《中分表》电子版

《中分表》的初步可视化已经为用户使用词表提供了极大的方便,但是目前离词表和检索结果的全面可视化还有相当的距离。必须借鉴和引进国内外信息可视化的技术成果,加快《中分表》的网络化、可视化和智能化的进程。

3  本体编辑工具在文献分类可视化中的应用

目前学界公认的本体(Ontology)定义是Tom GruberPimBorst提出的:“本体是一套得到大多数人认同的、关于概念体系的明确的、形式化的规范说明。”现有本体具有代表性的语言可以分为两类,一类是基于一阶谓词逻辑的,如框架逻辑(Frame-logic)等;第二类基于XML标准的本体语言,这些语言包括:RDFSHEOEXOLOMLOILDAML+OIL以及集成这些语言推出的OWL。本体可以描述事物的属性、关系和分类。本体的作用与传统分类法、主题法的作用有类似的地方。因本体所包含的术语量非常大,能对于信息起到规范控制的作用。当然本体还有知识关联、推理等作用[13]。

目前较成熟的本体编辑工具有OntolinguaWebonto等,斯坦福大学医学院开发的开源本体构建工具Protégé应用最为广泛,是斯坦福大学医学院的医学情报学研究组用Java语言开发研制的本体构建工具,是集本体编辑和知识编辑为一体的开放源码软件,提供图形界面和交互式的本体设计开发环境。Protégé以OKBCOpen Knowledge Base Connectivity)模型为基础,支持类、类的多重继承、模版、实例等知识表示要素,可以定义各种知识规则。另外,Protégé最大的特点是开放性、兼容性及可扩展性,可以免费下载系统的安装软件与插件、可用RDFRDFSOWL等本体语言在系统外对本体进行编辑和修改等,因而拥有众多的用户,已成为目前使用范围最广的本体编辑器之一[14]。除以上优点外,Protégé提供了许多可视化插件,还支持中文的编辑和输出,帮助用户构建本体、查看本体以及检查概念的一致性,宜于用作分类表可视化的试验工具。

本文选择抽取《中图法》“J 艺术大类”中“各种电影、电视”,按内容、题材和表现形式分为三大类,其类目层次严格按照中图法的体系结构,各类的类号作为本体名称一并输入。因Protégé系统将“Thing”(事物)定义为超类,用户定义的类都是其子类,因此本文将“电影、电视”设为超类“Thing”的子类,再按内容、题材、表现形式等往下细分,构建结果如图5所示;每个类目都是一个超链接,有些类目上方红色的数字标注是表明该类有几个下位类,双击该类目就显示其下位类,例如双击J974思想类型电影,就显示它的三个下位类:J974.1政治片、J974.2哲理片和J974.3伦理片。

5  Protégé构建分类法的类目显示

本体编辑工具可以以各种形式表现类目,在Jambalaya插件中,有辐射形、喷泉形、垂直树形、水平树形等各种图形显示类目,可以任意选择,在这里就不一一展示。本文选择辐射形显示图,如图6所示,每个类目用黄色小方框表示,类目之间用蓝线相连,呈辐射状,图形充分显示了分类表的类目体系、类链和类列;而且每一个方框就是节点,鼠标放置在方框上就会显示该类目的类名、下位类及注释。在该插件中还可以对类目进行检索,例如选择“search”图标,在跳出的对话框里输入“J95”,就会显示J95这个类目及其所有的下位类。

经过试验,发现用本体编辑工具构建分类法基本可行,而且在可视化方面突破了以往惯用的树型显示方式,显示的丰富程度大大增加,可用多种形式(如嵌入图、放射图等)来显示分类法的类目。

但是,将本体编辑工具用于文献分类法的可视化也存在一些难点。传统知识组织体系的设计思路、功能、对象、用法与本体是有很大区别的。有些概念没法翻译成本体,而且每个概念、概念间的关系都需要定义,许多模糊的概念关系需要明确。虽然本体编辑工具在近10年已经比较成熟,然而手工构建本体费时费力,而且本体工具的某些插件在中文的编辑和输出方面还需改进。所以在目前的情况下,可考虑用本体编辑工具建立分类表的相应类目,而不宜进行纯粹的转换。6  Jambalaya中的辐射形显示图

目前关于信息可视化的研究在国外已相当活跃,在我国还处于起步阶段,但是它的方法技术正在日益成熟,其用途也正在逐渐扩展。网络环境下分类法可视化系统的研究,需要更多的实验和测试。随着可视化与智能化研究的不断深入,相信更多的可视化方法和工具将被开发,可视化操作的自动化程度也将越来越高。

 

参考文献

1 Dieter Merkl,Text classification with self-organizing maps.Wien: Neurocomputing,1998(21):61-77

2Sherry Koshman,Visualization-basedinformation retrieval on the web.Pittsburgh: Library & Information Science Research, 2006(28): 192-207

3杨达. 数字图书馆信息可视化的研究框架. 沈阳教育学院学报, 20053:127-130

4石明芳. 数字图书馆中的信息可视化技术.情报杂志,20067:29-35

5周宁,张弛,张会平. 信息可视化与知识检索系统设计. 情报科学,20064:571-574

6张海营.信息可视化刍议.科技情报开发与经济,20058:69-70

7周宁,张芳芳,谷宏群.文献资源可视化模型方法初探.图书情报知识,20042:49-51

8王绍平. 数字图书馆中的文献分类法.上海交通大学学报,2003(增刊):131-138

9靖培栋,郭宇峰.基于双曲几何的《中图法》分类体系的可视化. 现代图书情报技术,2005(1):40-42

10许磊.网络环境下《中图法》的改造.图书与情报,20033:72-74

11王应华. 《中图法》电子版实现了类目的多维检索和多维显示. 图书馆论坛,20036:64-66

12OCLC Online ComputerLibrary Center, Inc. Using a Classification-Based Information Space EB/OL.2000-01-08. http://www.oclc.org/ca/fr/research/publications/archive/2001/normore_classified_info_space.pdf

13周宁,张玉峰,张李义.信息可视化与知识检索.北京:科学出版社,2005

14赵永莲.浅谈《中国分类主题词表》电子版的应用. 科技情报开发与经济,200615:47-48

15李华,刘竟,侯汉清.用本体构建工具Protégé实现叙词表的可视化.图书馆杂志,2007年待发

 

欧阳宁 女,1980年生,硕士,中国药科大学图书馆助理馆员,研究方向数字图书馆。

侯汉清  南京农业大学信息管理系教授。