主题图及其应用 何建新
发布时间:2018-09-25  浏览次数:117

主题图及其应用

何 建 新

(南京农业大学图书馆  210095)

        介绍主题图的基本概念,利用主题图组织知识系统的方法以及主题图的一些实际应用。

    关键词  主题图  TopicMap  知识组织系统  情报检索语言

   

主题图(Topic Maps)的概念最初是由W3C提出的,并由国际标准组织SGML委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC13250:2000,这项国际标准定义出了Topic Maps的完整模型,它采用ISO10744:1997 HyTime的标准来定义主题图的语法,因此又被称为HyTM。主题图虽然早于XML出现,但是XML与Web的迅速发展导致出现了XMLTopic Maps,即XTM。XTM是由Topic Maps org负责订定,它的基础是ISO/IEC 13250模型,但是定义的是一种XML语法,并限制它只能通过URI实现。到2002年修订第二版,即ISO/IEC13250:2002时,它同时包含了HyTM和XTM两种语法。 

1 主题图概述

简单地说,主题图好比一本书的书后主题索引一样。主题索引的主要目的在于将某一主题范围内的各个主题及其附属次主题一一列出,并建立见参照和参见参照的参照关系,将具有关联的主题联系起来。一个传统的书后索引,实际上就是一本书的知识地图,列出了这本书的全部主题,并给出相应的信息资源出处,如页码、同义词和相关主题等。书后索引定义主题、主题间的关系及信息源出处,由此将信息传递给读者。因此,一本书的主题索引同时具有主题、关联和信息资源出处三个要素。在ISO/IEC 13250中对主题图(Topic Maps)的定义为“Topic Maps是一套用来组织信息的方法,使用这个方法可以提供最佳的信息导航”。其目的就如在地理信息系统里卫星导航所提供的功能。TopicMaps将所有可能的对象,例如:人、事、时、地、物等,不论此对象是一具体存在的物质或抽象的概念,都统称为主题。

  1.1  什么是主题图及主题图TAO

主题图是一种用于描述信息资源的知识结构的元数据格式,它可以定位某一知识概念所在的资源位置,也可以表示知识概念间的相互联系。XTM标准详细规定了用于创建主题图的XML标签集和相应的语法规范。现实世界中的客观事物往往具有其自身的某些特征,比如名称、位置、存在的特定范围以及一事物和其他事物之间的联系等,这些事物在主题图中的反映就是一组主题。这些主题同样也包含自身的特征集合,最基本的特征是:主题的名称,主题所在的资源出处,以及它与其他主题间的关联。一个主题图就是一个由主题(Topic)、关联(Association)以及资源出处(Occurrences)组成的集合体(TAO)。

  1.2  主题

主题就是主题图中的基本构成单元,是现实事物的具体化,它可以是表示任何事物对象的名词,通过主题表述的概念被形式化之后就是标题(Subject)。比如“人名”、“书”、“计算机”等。主题可以有其特定的类型。“主题类型”和主题间的关系是“类―实例”关系的典型代表。在一个主题图中,任何主题都是零个或多个“主题类型”的实例。例如:主题“茶花女”是主题类型“小说”的实例,而“小仲马”则是“作者”的实例。同时,“主题类型”自身也被当作主题来进行定义,如上面提到的“小说”、“作者”等类型本身就是主题。一般来说,为了称呼的方便,主题应有自己的明确名称。和其他任何事物一样,一个主题可以具有多个名称,从而使其可以被用于不同的上下文环境。主题图标准并没有将所有主题可能用到的名称都罗列出来,而只是选择了几个有代表意义和特殊用途的作了规定,它们是:基本名称(basename)、显示名称(display name)和排序键值(sore key)。其中基本名称是必须的,而显示名称和排序键值则可根据需要设置,但不允许在同样的环境中出现两个不同的主题具有同样的名称。

  1.3  关联

主题图中最有价值的部分就是主题间的关联。主题关联是一个描述两个或多个主题间相互关系的联接元素。例如,“小仲马”与“茶花女”这两个主题间的关联就是“小仲马撰写了《茶花女》”。而“小仲马”与“大仲马”之间的关联则是“小仲马是大仲马的儿子”。另外,主题关联是完全独立于任何信息资源的,这意味着主题图本身就是一类信息资源。例如,“小仲马撰写了《茶花女》”这样的主题关联,本身就是有用的知识。这也正是主题图区别于传统主题索引的根本所在。这种主题图与信息资源的分离性,还使同一个主题图可以被用于多个不同的信息资源,就像一个信息资源可以拥有多个主题图一样。关联同样具有不同的类型,例如上面提及的关联,可以分别归为“作者与作品”的关联类型或“父与子”的关联类型。和主题类型一样,关联类型本身也是以主题的方式定义的。这种为关联赋予不同类型的做法,使得主题图的功能更加强大,它可以将给定的主题按照关联类型进行聚合。

  1.4  资源出处

一个主题可能和一个或多个信息资源相关联,这些信息资源就是主题图中的资源出处。这些资源出处一般都是独立于主题图文档之外的。这是主题图标准的一个重要特性。一个资源出处可以是关于某一主题的专论,也可以是描述某一主题的图像或视频,甚至只是简单地提及到该主题的一段文字。正是因为资源出处具有如此多样的类型,主题图标准中才设置了资源出处角色和资源出处角色类型这两个概念,用来区分不同类型的资源。

显而易见,如果主题A关联于主题B,则主题B也必然关联于主题A,这说明了关联自身所固有的多方向性。因此我们在创建关联时,不能仅仅只满足于“A和B相互影响”这样的理解,而应该更确切地知道谁影响着谁,即谁是影响者,谁是被影响者。很多情况下,同样的两个主题图可能会存在多个不同的关联类型,比如“北京”和“中国”这样的两个主题,它们之间的关系可以是“北京位于中国,也可以是“北京是中国的首都”。那么怎样决定在什么情况下使用什么样的关联类型呢?这就涉及到主题图中的另一个概念――范围(scope)。主题间不同的关联类型是由于它们位于不同的上下文环境中,而“范围”就是用来描述上下文环境的概念。例如:当我们描述北京的“地理位置”时,我们会选择“北京位于中国”这个关联;而当我们描述北京的“行政职能”时,就要用到“北京是中国的首都”这个关联,这里的“地理位置”和“行政职能”就是“范围”。由此可看出,“范围”也是一类特殊的“主题”。总之,主题、关联和资源出处构成了主题图的基本架构,范围限制了这些主题、关联和资源出处的有效范畴。

2 主题图语言及框架

Topic Maps的语法目前以XML为主流。XML比HTML更有结构性,且比SGML来得弹性及易用,这可能是为什么现今的TopicMaps以XML为主要发展语法的原因。

  2.1  以XML为语法的主题图基本字段

<topicRef>:

<subjectIndicatorRef>:

<scope>:

<instanceOf>:

<topicMap>:

<topic>:

<subjectIdentity>:

<basename>:

<basenameString>:

<variant>:

<variantName>:

<parameters>:

<association>:

<member>:

<roleSpec>:

<occurrence>:

<resourceRef>:

<resourceData>:

<MergeMap>:

以上字段在使用时,有进一步详细的规定及说明,这些都是在建立主题图之前所必须先了解的。

  2.2  一个用XML标记的主题图片段

主题图上的很多实际工作都是构建在XML工具之上的,其中包括XSLT和JavaAPI。例1是从XTM规范中所带的例子里截取的一小段代码。可以看到XML的语法非常清晰:

1. 莎士比亚及其著作的主题图节选

<!--A topic representing theElizabethan playwright 

William Shakespeare. No occurrencesbecause you cannot download 

a person-->

 

<topic id=“shakespeare”> 

<baseName>   

<baseNameString>WilliamShakespeare</baseNameString> 

</baseName>

</topic>

 

<!--A topic representing the play “Hamlet”-->

 

<topic id=“hamlet”> 

<instanceOf><topicRefxlink:href=“#play”/></instanceOf> 

<baseName>   

<baseNameString>Hamlet, Prince ofDenmark</baseNameString> 

</baseName>

 

<!--An occurrence given by ProjectGutenberg's plain text download 

of the Hamlet--> 

 

<occurrence> 

<instanceOf>   

<topicRef xlink:href=“#plain-text-format”/> 

</instanceOf> 

<resourceRef

xlink:href=“ftp://www.gutenberg.org/pub/gutenberg/etext97/1ws2610.txt”/> 

</occurrence>

</topic>

 

<!--An association representing anauthorship relationship-->

 

<topic id=“written-by”> 

<baseName>   

<baseNameString>writtenby</baseNameString> 

</baseName>

</topic>

 

<!--Used here to associateShakespeare and the play Hamlet-->

 

<association> 

<instanceOf><topicRefxlink:href=“#written-by”/></instanceOf> 

<member>   

<roleSpec><topicRef xlink:href=“#author”/></roleSpec>   

<topicRef xlink:href=“#shakespeare”/> 

</member> 

<member>   

<roleSpec><topicRef xlink:href=“#work”/></roleSpec>   

<topicRef xlink:href=“#hamlet”/> 

</member>

</association>

一般地,在一个标准的XML文档中首先要加入一个<TopicMap>标签,以表明这是一个主题图文档。下面是一个主题图的XTM语法的基本框架:

<?xml version=“1.0”encoding=“ISO-8859-1”?>

<topicMap xmlns=“http://www.topicmaps.org/xtm/1.0/”   

xmlns:xlinR=“http://www.w3.org/1999/xlink”>

</topicMap>

3 主题图应用案例

主题图的概念提出以来,国内外实际应用的案例不多。国外成型的有意大利歌剧主题图和书写符号及语言主题图。我国台湾地区研究得较多,大陆介入得较迟,但目前都处于探索阶段,没有较为成熟的应用案例。如台湾飞资得公司利用主题图技术建立自建网站,谈江大学资讯与图书馆系的应用主题图编制叙词表,大陆有一个利用主题图完成对某个大型石油化工公司的组织知识存储与管理的实例。

  3.1  意大利歌剧主题图(The Italian Opera Topic Map)

意大利歌剧主题图是由挪威Ontopia软件公司开发的,程序运用了OntopiaKnowledge Suite和Ontopia Navigator Framework,其主页为http://www.ontopia.net/operamap/index.jsp,它也可以使用Omnigator浏览器进行联机浏览。

意大利歌剧主题图包含了28个国家的150个著名的古典歌剧。这个主题图基本上分为7个主题,即歌剧、作曲家、歌词作者、作者、剧院、城市和地区、国家。在国家主题中,可以看到中国和北京。在中国和北京下都可以看到歌剧图兰朵。点击图兰朵链接,可以看到相关内容,如该歌剧发源于北京,首次在意大利公演是1926年4月25日,在米兰的Teatroalla Scala歌剧院。此外还有剧中人物、著名唱段、剧情简介、歌曲片段、其他网页等介绍的关联和链接。

除了主题图内部的歌剧信息资源以外,意大利歌剧主题图还列出了4个外部歌剧资源:RickBogat's PoeraGlass web site、Mike Gibb's performance database、Anne Lawson'sOperaResource和The Italian OperaWeb site。

  3.2  书写符号及语言及主题图(Scripts and languages)

书写符号及语言主题图同样是根据挪威Ontopia软件公司开发的,程序运用了OntopiaNavigator Framework,主页为:http://www.ontopia.net/i8n/index.jsp。该主题图包含了75个国家的231种不同的书写符号以及使用这些符号的175种语言。在它的主页上列出了7个索引,即书写符号、语言、国家、类型、范畴、翻译转换、书写方向。用户可以通过这7个索引进行检索,也可以通过主页右侧提供的这个主题的结构图进行检索,还可以进行简单的全文检索。

书写符号及语言主题图同样提供了许多关联和链接。例如在书写方向中,用户可以看到有9种书写方向,有颠倒从左到右、颠倒从右到左、左右交互、从左到右、从右到左、从上到下从左到右、从上到下从右到左、向上左右交互、不定型。在范畴中,用户可以看到一个范畴图表,将书写符号分为天然、人工、速记和语音学4大范畴。在天然大类中有分为婆罗门语族、闪族语族和汉语族。

  3.3  台湾飞资得公司主题图网站

台湾飞资得公司利用主题图技术建立自建网站,以用户的需求为出发点,通过进行元数据分析,建立数据库资源中心。飞资得公司主题图中所包含的主题有产品、代理商、主题、类型、服务等各种不同的主题,并列出各主题之中的关联,如产品与代理商、产品与主题、产品与类型等各种不同的关联性,并可以直接链接到该代理商的网页或者产品的说明网页,提供最新的信息。借助这样建立的知识地图,可以作为数字图书馆参考的知识体系,这种体系结合各学科的专业词汇,则可形成知识管理的基础,最终将可建成一个整合的知识管理检索引擎。

  3.4  应用主题图编制叙词表

台湾谈江大学资讯与图书馆系应用主题图编制叙词表,选取台湾教育论文数据库(EdD-Oline)为蓝本,以主题词“专家系统”为中心,选出19个相关主题词及其替代词汇,进行关联性分析,归纳出词间关系。下面是用XTM构建的语义网络片断,将“广义词”定义为一个主题:

<topic id=“id”> 

<baseName>   

<baseNameString>广义词</baseNameString> 

</baseName>

</topic>

4 主题图的应用前景

主题图规定了用于表示网络信息位于何处的“信息地图”的生成方法和使用方法。与可赋于网络内容以有价值信息的“语义网络(Semantic Web)”一起作为新一代Web技术而受到了业界越来越广泛的关注。

主题地图可以在知识组织、知识管理中扮演一个重要的角色:其拥有的相关技术能够提供给知识组织、知识管理更新的服务。使用主题地图将可以任意地定义复杂的知识结构,并将其变成元数据(metadata)的信息资源,可以减少各种不同元数据之间创造、维持和交换的时间,是一个很强大的基本服务,应用范围很广。除了作为有效的导航工具外,也是知识管理领域中建立与维护信息的基本组织原则,可被广泛应用于知识搜索,知识管理,网络接口设计,内容管理和数据集成等领域。

网络信息导航是主题地图的主要应用之一。要实现网络信息导航,首先要以Web的形式体现主题地图的数据模型,对Web内容以主题为中心建立电子索引,按主题的关联性连接主题。由于主题域是在信息域之上定义,包含的都是有意义的主题,当在主题域查找时,其查找范围将远小于在信息域查找的范围,查找的结果将是一系列主题,通过主题和关系实例的链接很容易找到所需的信息资源,实现了精确查找,提高了查找效率。另外主题地图提供语义支持,当在信息空间中查找时,查找路径上有语义标识,路径中的每个指向都明确地标识名字和类型,告诉用户每个指向是什么,从而保证用户知道自己在网络中的位置,实现网站信息的导航,提高了信息查找的效率。主题地图提供语义支持和主题合并,实现了快速、有效地搜索网站内容。由于能精确地定位查找,被称为信息领域的全球定位系统(GPS)。主题地图与RDF都是信息管理元数据模型,但两者有一些区别,RDF描述网络资源主要为了实现机器间的互操作和交流,实现比较复杂;而主题地图主要是从人的角度来实现信息管理,操纵传统的搜索引擎,在信息空间向人们提供直觉导航,易于被人理解和操作。

    主题地图另一个主要应用是开发Web应用软件,实现动态Web信息的管理。传统的Web发布系统使用一些固定形式的后台关系数据库或面向对象的数据库,使用过程中若需改变信息对象的属性,将付出昂贵的代价。而当一个系统采用主题地图来表达关键的信息对象时,就可利用单一的主题、主题相关的关联实例及主题间的关联性有关的后台模式,通过改变主题地图来达到对任何给定对象的外观进行精确修改的目的。这种只改变数据中的应用软件模式,而无需更改底层的数据库,使得Web应用软件的开发和更新更简单。

    知识管理和知识组织是主题地图的另一个主要应用。主题地图能够提供一个标准技术方法来建构和分享知识,可以定义任意复杂的、不断变化的知识结构,并以元数据的形式体现和表示知识,从而解决了知识组织所面临的知识存储、检索、创造和分享的问题,可实现异构数据的语义集成,减少知识重组的复杂性,并对已有的知识整合并将其序化,产生新的涵义和理解。


参考文献

1 艾丹祥,张玉峰.利用主题图建立概念知识库.图书情报知识,2003(2)

2   锋.基于Topic Map的知识表示技术研究.中南民族大学学报(自然科学版),2004(1)

3  君,樊治平.一种基于主题图的组织知识的分布式存取架构.情报学报,2004(1)

4 张晓林.描述知识组织体系的元数据.图书情报工作,2002(2)

5 http://www.ontopia.net/

6 温达茂.主题地图(ISO-13250 Topic Map)的应用.国家图书馆馆讯(台湾),2002(1)

7 http://www.easytopicmaps.com/wakka.php?wakka=MyFirstTopicmap&v=41k

8 Pepper,Steve. Ten Theses on Topic Maps and RDF.http://www.ontopia.net/topicmaps/materials/rdf.html

9 http://xml.coverpages.org/topicMaps.html10  http://hypergraph.sourceforge.net/examples-orga.html

11 http://www.topicmap.com/

12 http://www.topicmaps.org/

何建新  南京农业大学图书馆信息咨询部主任,副研究馆员。