现代的索引就是知识数据库
祝方林
(湖北民族学院图书馆 湖北恩施 445000)
摘 要 自从Internet进入实用以来,数字化、网络化环境催生的数字信息载体以迅猛之势横扫全球。在数字资源成为了主流载体、改变人们获取信息行为方式的同时,催生了用户对数字资源获取与利用的新需求。数据库是数字信息开发利用的最有效的形式,是存储、检索数字信息的主要工具。在现代数据库大量应用于数字媒体的新形势下,索引的理论和技术必将进步才能满足需要。基于主题地图(Topic Maps)的索引是适应知识数据库的有效索引方式。
关键词 现代索引 知识数据库 主题地图(Topic Maps)
早在1993年戴维民先生发文,对索引的历史进行了梳理,他根据计算机技术在当时索引工作中的应用情况,预测索引与索引编制倾向之一就是数据库,并对数据库的几种主要类型在分析的基础上和传统索引进行了对比,突出了数据库在索引工作中应用的优势[1]。2001年,张琪玉先生发表了著名的《现代的索引就是数据库》一文。文中从索引工作现代化和现代索引的基本需求出发分析,认为数据库推动了索引工作的现代化。并从理论上论证数据库扩大了索引原理的应用、数据库对索引学发展的贡献。最后指出当时索引事业的发展是数据库建设,具体来说就是要推动传统索引与数据库的结合[2]。
现代索引理论和应用的前途锁定在数据库的论断得到广大同仁的认可和事实的证明。像我国的万方数据有限公司、重庆维普咨询公司、清华同方数据公司、中国人民大学复印报刊资料社、上海图书馆《全国报刊索引》等的数据库就达到相当大的规模。如清华同方的《中国知识资源总库》(CNKI)的各种数据库经整合后有记录超过五千万条,而且每天有超过二万条的追加[3]。伴随着计算机技术在图书馆学(大图书馆学)的进一步渗入,索引技术的发展似乎也要进一步了。借用前辈学者们的努力,本文认为现代的索引是知识库。
曾几何时,纸型载体一统天下。在那个时代,索引的别称很多,像韵编、备检、通检、引得等,都强调检索功能。我国现代索引肇始于1917年林语堂的《创设汉字索引制议》[3]。之后经过近百年的发展,索引理论和技术有了长足的进步。尤其是对浩瀚古文献的索引是我国索引理论和技术的长处。像《十三经索引》、《三十三种清代综合引得》、《全上古三代秦汉三国六朝文篇名目录及作者索引》、《唐五代人物传记资料综合索引》、《古今图书集成索引》等。近三十年来,随着计算机在索引领域的应用,索引就从只能用单一的方式建立,转向按条目的任何字词建立,而且不限于条目字段,其他任何字段都可以用来建立索引。
传统索引结构包括索引款目和编排体系。索引款目是索引的主要组成部分,其目的是把检索者引向著作的内容,而不是向检索者阐述著作内容。款目一般由标目、说明项、页码参照项等组成。编排体系则是将索引款目按一定法则排列起来的规则。从类型上来说,有作者索引、篇目索引等来自文献外部特征的单一索引,也有取自文献内容的主题索引、语词索引等。
自从Internet进入实用以来,数字化、网络化环境催生的数字信息载体以迅猛之势横扫全球。2006年制造、复制出的数字信息量共计1610亿GB,开启了前所未有的信息增长时期。这些数字信息大约是现有书籍所含信息的300万倍,如果将书籍排列起来,总长度为地球到太阳距离(约1.5亿公里)的12倍。IDC报告同时显示,至2010年,这个数字将猛增到6倍,达9880亿GB,年复合增长率为57%[4]。可见的事实是在众多数据中搜寻到需要信息并不是十分得心应手。因此,在数字资源成为了主流载体、改变人们获取信息行为方式的同时,催生了用户对数字资源获取与利用的新需求。用户希望在海量的数字资源中获取蕴含的知识内容及知识的逻辑关系,帮助自己理解、应用和创造知识。数据库是数字信息开发利用的最有效的形式,是存储、检索数字信息的主要工具[5]。
我们先来分析传统数据库与传统索引之间的关系。传统数据库在功能上相当于传统索引的一个索引体系。数据库包含许多字段,一部分字段相当于文献款目的各种著录事项,另一部分字段相当于文献的各种检索标识项(如分类号、主题词、题名、著者等)。后者一般是每一字段生成一个索引,通过索引对数据库进行检索(但也可不通过索引直接对数据库的相应字段进行检索);所以,一个含有分类号、主题词、题名、著者字段的数据库相当于分类索引、主题索引、题名索引、著者索引4套卡片式索引,或相当于一种按详细分类排列正文并附有主题、题名、著者3种索引的检索工具的功能。数据库的一个重要特点是数据的最少冗余,例如,在传统索引中,题名和著者既作为文献著录的项目又作为文献检索标识时必须重复著录,而在数据库中则无必要重复。在传统索引中诸如出版地、出版年等是不可能作为检索标识使用的,而在数据库中,必要时也可作为可检字段提供检索(一般是作限定检索)。数据库在检索上最主要的优点是可以用多个同一种类的检索标识或不同种类的检索标识进行组配检索(多种条件的联合检索),这是传统索引所难以做到的(比号索引和比孔索引除外)。此外,数据库还可用于文献计量和情报研究。可以说,传统索引的全部检索功能,在数据库中都能实现;而数据库有许多检索功能,却是传统索引所不能实现的,数据库比之传统索引有更多的检索功能:数据库是比传统索引更为高级、更为先进的索引[6]。
数据库从20世纪60年代开始发展到今天,比如以关系数据库为代表的传统数据库已难以胜任新应用的需求。在新的以知识组织为基础开发数据库的时代,必然有新的数据库技术来满足新的知识管理对数据库的要求。就目前而言,这种新的数据库,有以下几种主要功能:
一是应该支持数据管理、对象管理和知识管理;
二是必须保持或继承关系数据库系统的技术;
三是必须对其他系统开放[7]。
知识库就是这样一种现代数据库。知识库是把知识从应用程序中分离出来,交由知识系统程序处理的数据库[8]、[9]。知识库当然是知识的集合,其中包括两部分:事实和规则。知识库中的事实和传统数据库中的元组具有相同的含义,是由若干确定的概念组成,是系统本身进行推理过程中所利用的信息。因此知识数据库和传统数据库的重要区别就是是否向用户提供直接查询的信息。知识数据库是根据用户输入的数据信息通过知识推断而得到的结果。
因此,知识数据库系统的核心组成部分是知识库和依附其上的推理机制。知识库和传统数据库之间差别不大,都是以一定的格式存储信息或知识的机构。知识数据库的最大特点是推理机构,它是为了使用知识库内的知识执行判断、推理的控制机构。
这样的推理机构能够实现知识关联和概念语义检索的智能化的检索方式。主题地图(Topic Maps)是以可视化方式描述信息资源或知识库中概念之间相互联系的技术与方法。
以主题地图组织知识的思想萌发于20世纪90年代。Davenport Group首次建立起旨在智能化的电子索引。1999年获得国际标准组织的认证(ISO/IEC13250),2000年成为国际标准(ISO/IEC 13250:2000 TopicMaps),2001年主题地图组织(Topicmaps.org)制定了基于XML语言的规范XTM1.0(XTM Topic Mpas),2002年ISO/IEC 13250:2002问世,2005年基于ISO/IEC13250标准的主题地图数据模型国际标准草案公布。
主题地图按照主题(Topic)、联系(Association)和事件(Occurrence)这三个概念来组织知识,从而形成一个网络化的知识结构,便于知识的组织和查询。
主题(Topic)是用来表示任何有意义的事务对象、不同事务对象及其特征、相互间联系。联系(Association)是用以描述主题间的语义关系,可以用来描述两两主题间的关系,也可以用来描述多主题间的复杂关联。事件(Occurrence)是主题和资源实体间的关系表现,一个主题可以只连接一个资源实体,也可以连接多个资源实体。
上图[10]是一个典型的TAO模型。图中Verdi、Rome、Puccini、Tosca、Lucca、Italy和Madama Butterfly是不同的主题。各主题之间的连线是关联,表示各主题之间的相互关系。直线部分是事件。是主题和资源实体之间的一种指向。从图中可以看出这种指向可以一对一,也可一对多。
为了实现主题地图间的互操作,还用XTM(XML Topic Maps)规定了用于创建主题地图的XML标签集和相应的语法规范。XTM描述主题的语法结构如下:
Topic(主题):
ID:唯一确认名
baseName:基准名称
instaneeof:所属主题类别
occurrences:该主题出现的信息资源
variantnames:其他名称
其实,主题地图的思想来源于索引。索引事实上就是一本书的知识地图,罗列了这本书的主题,并给予相关的指引,如页码、同义词等。其构成要素包括:区别不同的主题类型及资源指引;采用“见”(See)来处理同义词;采用参见(Seealso)来指引到相关主题;在次要项目提供链接到其他类型的主题(如链接作者与其作品、或上层分类与下层分类间);区别同音异义、同形异义、同音同形异义词;资源指引并不仅止于页码,可能还包括章节、附注等,并用不同的字体标示等。总结来说,索引的主要特点有:定义主题、主题间的关系、主题资源指引,并藉此将信息传递给用户。因此,一本书的索引即同时兼具有主题、关联与资源指引三要素,主题地图的TAO 模型即是取材于此[11]。很明显,主题地图资源组织的功能更为强大、范围更广、通用性更强。
目前知识数据库支持三种索引方式。一种是基于值的索引,和传统的关系数据库中普遍使用的索引方式一样。第二种是文本索引。另外一种是基于XML的结构索引。其包括两种风格。精简的结构包括某种文档类型所有的文档实例的路径信息。可以在很多种情况下提高查询的速度和准确度。完整的结构索引不仅仅记录文档类型下存在的路径信息,而且记录这些路径存在的文档编号。当查询一个文档类型下的可选部分时,这种索引可以为优化提取结果提供参考[12]。
从以上分析可以发现,现代索引技术的出路在于对知识数据库中知识的提取。因此,本文认为现代的索引是知识数据库。
参考文献
1 戴维民.索引的历史发展与未来趋向.图书馆理论与实践,1993(3)
2 张琪玉.现代的索引就是数据库.图书馆杂志,2001(12)
3 www.cnki.net/index.htm.[2009-04-30]
4 印永清.中国索引发展史略.图书与情报,2007(1)
5 www.emc.com/about/destination/digital_universe.[2009-04-30]
6 马文峰,杜小勇.数字资源整合:理论、方法与应用.北京:北京图书馆出版社,2007:4
7 张琪玉.现代的索引就是数据库.图书馆杂志,2001(12)
8 叶小平,汤庸,汤娜等.数据库系统基础教程.北京:清华大学出版社,2007:354
9 叶小平,汤庸,汤娜等.数据库系统基础教程.北京:清华大学出版社,2007:368
10 www.ontopia.net/topicmaps/materials/tao.html.[2009-04-30]
11 林信成,欧阳慧,欧阳崇荣.以主�地图建构索引典之语意网路模型.图书与资讯学刊,2004(2)
12 Akmal B. Chaudhri, AwaisRashid, Roberto Zicari编著;邢春晓,张志强,李骅竞等译,XML数据管理:纯XML和支持XML的数据库系统.北京:清华大学出版社,2006:25-26
祝方林 1968年生,硕士,湖北民族学院图书馆工作。主要从事民族文献数字化研究。