叙词表词间关系可视化实验研究
刘俊 李华 侯汉清
(南京农业大学信息管理系210095)
摘 要 叙词表已有的参照系统及几种图形显示形式在网络环境中显然不能动态地、全面地显示词间关系,不便于浏览和检索。本文分析了利用本体编辑工具Protégé实现叙词表可视化的必要性,并以《汉语主题词表》为例,利用Protégé的可视化插件,进行了叙词表等同关系、等级关系及相关关系可视化的实验,并讨论了整部关系和例举关系的可视化。
关键词 本体编辑工具 Protégé 叙词表可视化 信息可视化
叙词表是信息表示工作过程中广泛采用的文献主题标引和检索工具。它对自然语言进行词量、词类、词形、词义及词间关系的全面控制。可视化就是把数据信息和知识转化为图形、图像等比较直观的视觉形式的过程[1]。对叙词表的词间关系进行可视化,能够帮助用户更直观地感知词间关系,了解叙词的涵义,更便捷地对所需语词做出判断和选择[2]。
词间关系是指叙词之间内在的语义联系,包括等同关系、等级关系和相关关系。纸质叙词表的编制通常采用三种词间关系控制方法:①编制范畴索引和词族索引;②建立参照系统;③图形显示。前两种方法只能线性显示词间关系,而第三种方法借助图形的直观优势,更能有助于把握词间关系。本文尝试以《汉语主题词表》为例,用本体编辑工具Protégé实现叙词表的的可视化,全面地、形象地、动态地显示叙词表的各种词间关系。
1 叙词关系的图形显示
图形显示[3]是将叙词之间关系以二维图形式加以显示,亦称词族图,或称叙词关系图;包括同心圆图、箭头图、树形结构图、方框图等显示形式。
1.1同心圆图
族首词位于同心圆的圆心位置,族中词根据级别不同分布于半径不同的同心圆上。也就是说,专指度越大的下位词,距离圆心越远。直接上下位词之间由单向箭头相连,从上位词指向下位词。与族中词(同心圆上的某个叙词)相关的叙词列于同心圆之外,两者之间用直线相连。典型的有1963年由武装部队技术和情报中心编制的TDCK环形展示叙词表[3]。图1是以族首词“出版物”为中心展开绘制的TDCK环形图。
1.2箭头图
由多条横线和竖线相交成一个坐标图。族首词位于坐标图的中间位置,族中词根据级别不同分布于不同坐标点上。也就是说,专指度越大的下位词,距离中心词(族首词)越远。与同心圆图一样,直接上下位词之间由单向箭头相连,从上位词指向下位词。与族中词(坐标图上的某个叙词)相关的叙词列于坐标图之外,两者之间用虚线相连。图2就是以族首词“摄影机”为中心展开绘制的箭头图。
1.3树形结构图
词族中的等级关系用树状结构加以展开。族首词位于树形结构图的顶端位置,族中词根据等级关系一层层展开:一级下位词处于族首词位置之下的第一层,以此类推,最后一级的下位词处于结构图的末端。
1.4方框图
由多个方框组成的方框图。一个词族列于一个方框之内。族首词居中位于框内第一行,并用下划线加以标识。族中词按照等级关系用空格缩进形式进行全显示。每一页集中显示具有相关关系的几个词族方框,并共同置于一个大方框中,不同词族方框中有相关关系的族中词之间用直线或折线相连。该页显示不下的相关关系,只用缩略形式表示:相关叙词列于大方框外,加以数字标识来源,分别置于一个个小方框内,并与族中词用直线相连。
图1 TDCK 环形表样式[3] 图2 箭头关系图[3]
“一画顶千言”,经图形显示的叙词关系直观、形象、清楚,便于用户对某个叙词的等级关系和相关关系有一个全面的了解。但是手工绘制词族图复杂又费时,而且这类词族图只是静态图,由于页面限制往往一页只能显示一个或几个词族,不利于浏览和检索。所以,叙词表采用词族图的仍寥若晨星,难于推广。
相比较之下,在电子和网络环境下,图形显示更能发挥有效的作用,因为借助超链接技术,用户就能直接浏览选定词语的详细内容或图示。网络上常用的受控词表的显示方式有[3]:路径等级显示、按分类体系或字母顺序显示、超链接导航(对所有与款目词有关的词建立链接)。
随着信息可视化技术的发展,一些商业产品能够生成概念图[4],例如本体编辑工具,可以对各类叙词进行编辑,自动生成叙词关系图。这在一定程度上解决了手工绘制词族图的繁琐,突破手工绘制的局限性,具有良好的友好性、动态性和可检索性。也就是说,用户通过浏览叙词表叙词关系图,对所感兴趣的领域有一个感性认识,可以从一个叙词到另一个相关叙词进行选择,从而确定标引和检索所要采用的叙词,有助于信息表示和检索过程中的找词选词。
2 本体编辑工具Protégé的可视化功能
Protégé[5]是由斯坦福大学医学院的医学情报学研究组(Stanford Medical Informatics)开发研制。Protégé[6]是一个免费的开源平台,为不断增长的用户群提供一套适用工具,用以构建领域本体和基于知识的本体应用。Protégé具有一套丰富的知识构建框架和方法,能以各种表示格式创建、图形显示和管理本体。Protégé构建的本体描述了某个特定领域中重要的概念和联系;不仅为该领域提供一部词汇表,也为词表中词语含义提供了一种计算机可操作的规范。Protégé构建本体时,用类(Classes)来划分客观世界或某个领域,允许在最低层类别之下添加实例(Instances),通过定义属性(Properties)将相关的类和实例联系起来,采用各种类型的图形显示类或实例之间的各种关系。目前Protégé提供了几个插件来实现可视化功能,例如TGVizTab采用的是网状图结构(图3),将类、实例、属性结点与结点相连,形成一张动态的语义相关的网络。
TGVizTab使用TouchGraph技术可视化显示本体,具体的功能有:①图形显示类或实例的关系;②网状图显示维度控制;③改变图形颜色;④不同颜色表示不同属性;⑤隐藏/显示单个属性和节点;⑥几何级和双曲线型的缩放;⑦旋转图形;⑧节结点检索;⑨保存/下载图形和设置。
图3 Protégé3.0的TGVizTab插件的用户界面和显示结果[7]
3 叙词表可视化的实现
至此,Protégé可作为可视化软件尝试显示叙词表的词间关系。本文以《汉语主题词表》(以下简称《汉表》)为例。《汉表》提供了三种词间关系(表1),笔者从《汉表》自然科学增订本中部分选取与信息领域相关的几个词族及相关关系(表2)在Protégé3.1.1中编辑后用TGVizTab插件进行图形显示。
表1 《汉语主题词表》的三种词间关系
词间关系 | 代 码 | 含义 | 备注 |
等同 | USE | Y | 用 | 正式叙词 |
UF | D | 代 | 非正式叙词 |
等级 | BT | S | 属 | 上位词 |
NT | F | 分 | 下位词 |
相关 | RT | C | 参 | 相关词 |
表2 《汉表》中部分叙词及词间关系(带星号的为族首词)
计算机管理* F 处理机管理 存储管理 设备管理 数据管理 中断系统 C 操作系统 管理程序 数据处理* | 处理机管理 S 计算机管理* C 处理机 中断系统 | 数据管理 D 信息管理 资料管理 F 程序库 数据库 文件系统 文献库 S 计算机管理* | 数据库 F 层状数据库 分布式数据库 关系型数据库 网状数据库 S 数据管理 Z 计算机管理* | 操作系统 F 混合操作系统 联机操作 S 程序系统* 计算机系统* C 分时系统 计算机管理* 批量处理系统 实时系统 虚处理机 | 信息系统* F 地理信息系统 分隔信息系统 土壤信息系统 遥信信息系统 C 信号流程图 信息论* |
文件系统 D 文件结构 S 数据管理 Z 计算机管理* |
3.1等级关系的可视化
Protégé系统提供了一个基本大类owl:Thing,在此类之下,允许用户自定义各大类,再一级级细分出小类,最后一级小类之下可以添加具体实例。由于笔者选取的都是抽象名词(表2),没有实例名词,因而在Protégé中编辑叙词表时,一个叙词就作为一个类。这样类的等级关系就反映着叙词间的等级关系。
首先,在owl:Thing总类之下建立两个大类:正式叙词和非正式叙词。在大类“正式叙词”之下,按照每个词族的等级关系建立起一级级下位类。在显示图形界面,鼠标置于某个叙词,系统就会自动显示其周围叙词与该词之间的关系。super 和sub 是由系统默认的等级关系属性:super 指向上位词,sub 指向下位词。如图4所示,“计算机管理*”有一个上位类“正式叙词”,说明它是个族首词;有五个下位类。位于叙词右上角的红色数字表示未显示出的词间关系的数量。
图4 等级关系的可视化
3.2等同关系的可视化
Protégé提供两种类型属性:对象属性(Object Property)和数据属性(Datatype Property)。对象属性表示类或实例之间的相互联系,即关系,有翻转属性、传递属性、对称属性和函数属性四种类型。数据属性反映的是某类或实例自身属性,例如图书的数据属性有开本、页码等。不难看出,在表现叙词间等同关系和相关关系时,需要定义对象属性。只要在属性编辑页面中选定一种对象属性,再添加该属性的定义域和值域,就可将存在此类关系的类或实例联系起来。
《汉表》在处理同义词时,通常指定其中一个常用的词语为正式叙词,其余词均为非正式叙词,表示方法为“正式叙词D非正式叙词,非正式叙词Y正式叙词”。根据D和Y的互逆关系,在Protégé属性界面中新建两个对象属性D和Y,并定义Y是D的翻转属性。只要类1用属性D联系到类2,系统就自动地从类2用属性Y联系到类1。如果在属性D下建立子属性D1,系统就会自动在属性Y下建立一个子属性为Y1的翻转属性,名为inverse_of_D1,用户可以根据习惯重命名。
首先,将某个或几个非正式叙词作为下位类列于大类“非正式叙词”之下。在属性D下建立子属性D1,并于系统在属性Y下生成子属性inverse_of_D1后,将其重命名为Y1。选中属性D1,在定义域添加正式叙词,在值域添加某个或某些非正式叙词。第二组的等同关系需要建立子属性D2,以后各组等同关系的均在属性D下依次建立子属性。因为对象属性的定义域与值域中各值之间并未建立起相对应的关系,如果所有等同关系都在属性D和Y中添加,就会造成关系扩张和混乱。本文中具体的对象属性设置如表3所示。
表3 对象属性设置
对象属性 | 子属性 | 含 义 | 翻转属性 | 子翻转属性 |
D | D1 | 代非正式叙词 | Y | Y1 |
D2 | Y2 |
Y | Y1 | 用正式叙词 | D | D1 |
Y2 | D2 |
C | C1 | 参 | SA | SA1 |
C2 | SA2 |
SA | SA1 | 参见 | C | C1 |
SA2 | C2 |
S | | 上位类 | F | |
F | | 下位类 | S | |
例如:
叙词关系 | 对象属性 |
数据管理 D 信息管理,资料管理 | D1 |
文件系统 D 文件结构 | D2 |
显示结果如图5所示,数据管理、信息管理和资料管理,文件系统和文件结构之间分别用直线建立联系。
图5 等同关系的可视化
3.3相关关系的可视化
相关关系C是一种特殊的翻转属性,是一种自逆关系。笔者新建一种对象属性SA (See also)(表3)作为属性C的翻转属性,这样叙词1若与叙词2相关,可以从叙词1用属性C联系到叙词2,相应地叙词2用属性SA反向联系到叙词1。在此基础上,与等同关系可视化操作一样,为每一组相关关系建立一对翻转子属性,并相应定义每个子属性的定义域和值域,即添加有相关关系的两类或多个类。
例如:
叙词关系 | 对象属性 |
计算机管理* C 操作系统 | C1 |
处理机管理 C 中断系统 | C2 |
如图6所示,计算机管理*和操作系统、处理机管理和中断系统之间分别用直线建立联系。
图6 相关关系的可视化
3.4交叉类的可视化
在《汉表》中存在许多交叉类,或称为多重等级关系,即一个下位叙词同时拥有多个上位类。例如下位词“操作系统”拥有两个上位类,分别为“程序系统*”和“计算机系统*”。由于Protégé假设各类之间没有交叉,不允许类名重复,建立的全是不交叉类,所以笔者沿用《汉表》的属分关系代码,另外建立一对翻转属性命其为S和F代表交叉等级关系(表3),特意表示此类交叉现象。表示交叉类“操作系统”时,先在“计算机系统*”之下按照常规方法建立子类“操作系统”,然后在“操作系统”和“程序系统*”之间用属性S和F相连,表示为操作系统 S 程序系统*、程序系统*F 操作系统。如图7所示,super和 S 分别指向“操作系统”的两个上位类。
图7 交叉类的可视化
4 自定义词间关系
在《汉表》中等级关系只包括属种关系,整部关系和例举关系并未得到揭示。可以利用protégé的属性设置功能自定义一对翻转属性BTP和NTP来揭示整体-部分关系,还可以通过在类下设置实例(instance)来揭示例举关系(BTI和NTI)。BTP和NTP[4]是ANSI/NISOZ39.19-2005标准中建议使用的,BTP 是BroaderTerm (partitive) 的缩写,NTP是Narrower Term (partitive)的缩写。其中BTP 指向包括各组成部分的整体,NTP 指向构成整体的组成部分。例如,数据库是信息系统的一个重要组成部分,可以表示为:数据库 BTP 信息系统,信息系统 NTP 数据库。如图8所示,属性NTP 将信息系统(整体)和数据库(部分)联系起来,显示出两者的整部关系。由于protégé可以在最底层的类下添加实例,因而很容易实现例举关系的可视化,不再赘叙。
图8 自定义的整体部分关系的可视化
5 评价
从以上可视化的实践来看,Protégé是一种可行的叙词关系可视化工具:不仅能够图形显示和自定义词间关系,还可以用不同颜色代表不同属性(表现为显示图中不同颜色的直线代表不同属性),也可以对某个局部进行任意缩放,选择关系网状图显示的深度和复杂度;根据显示要求显示或隐藏某个节点。不仅可以浏览网状图,还可以直接通过节点检索查找某个叙词。利用可视化技术,叙词表无论在电子或是网络环境下都能以友好姿态面向大众,不再是限于信息机构的专业工具,这样能够最大限度发挥叙词表的作用。总的来说,Protégé基本上能够满足叙词表可视化的需求。但是作为本体编辑工具,Protégé毕竟不是专门的叙词表可视化工具,因而出现以下两个问题:①对于类,对象属性不提供复用,其定义域和值域中的值并未建立一一对应关系,需要建立子属性加以区分;②Protégé设置的各级类不允许重复,也就是说,全部是不交叉类,其建立的等级关系就不能体现交叉类这一常见现象,需要增加对象属性来补充揭示;以上所提到的问题还有待进一步的改进。至于实现叙词表的可视化,是采用现有的可视化工具,还是开发专用的可视化工具,也需要进一步探讨和实践。
参考文献
1韩丽影,刘伟.信息可视化――知识服务网站的新形象.情报理论与实践,2005(6)
2王子熙,马蕾.《汉语主题词表》词间关系的可视化.四川图书馆学报,2006(2)
3马张华,侯汉清.文献分类法主题导论.北京图书馆出版社,1999.7
4ANSI/NISOZ39.19-2005 Guidelines for the Construction, Format, and Management ofMonolingual Controlled Vocabularies, Published by the National InformationStandards Organization, NISO Press, Bethesda, Maryland, U.S.A.
5李景.本体理论在文献检索系统中的应用研究.北京图书馆出版社,2005.3
6What isProtégé?[EB/OL].[2007-01-20]. http://protege.stanford.edu/overview/
7TGVizTab:A TouchGraph Visualization Tab for Protégé2000[EB/OL].[2007-01-20].http://eprints.ecs.soton.ac.uk/8326/01/Alani-VIKE-camera-ready.pdf
刘俊 南京农业大学信息管理系在读硕士生。
李华 南京农业大学信息管理系在读博士生。
侯汉清 南京农业大学信息管理系教授。