“数字索引学”要旨
刘 炜
(上海图书馆 200031)
摘 要 传统索引是印刷时代一种提供信息检索的方法和工具。数字索引起源于传统索引,互联网时代为数字索引提供了一个更为广阔的数字资源和技术应用环境。数字索引学如果能够依托语义技术,立足领域应用,不断为各类数据库信息库知识库提供组织、整序和查检工具,一定会有光明的前景。
关键词 数字索引 数字索引学
1 关于索引
《张琪玉索引学文集》开篇指出:
“索引是对某种文献或某一文献集合中所包含的各篇文章,或所讨论的各个局部主题,或所涉及的各种事项(如地区、人物、机构、事件、生物、矿物、产品、设备、公式、数据、著作等)以简明的方式分别著录标引,即确定其检索标识和指出其所在位置,并将款目按一定的可检顺序排列和组织,以方便检索的一种工具。”
由此可知,索引与目录、文摘、题录一样,是一种提供信息检索的方法和工具,通过析出知识单元(或在另一处建立知识单元的指代物)并加以有序组织,从而实现在大量的信息或知识中定位语义单元,以方便人们进行查找、参考、引用等。
由上述对于索引的定义,可以归纳出索引的三个核心要素:
(1)单元性:所有“被索引”的对象都必须是一个能够独立存在的概念、数据或知识点,这个“知识单元”可以以一定的方式进行结构化描述,例如地区有名称、方位、大小,人物有姓名、出生年月、性别、职业、联系方式……等等。这种对单元知识的描述规范,其实就是元数据规范。其实正是这种结构性造就了单元性。
(2)有序性:所有“被索引”的单元都需要以一种有序的方式组织起来。传统索引的有序化主要是指对索引单元(款目)的编排以字符或语义单元的自然属性(通过音序、字形编码顺序来检字)来排列的方式,这种有序构成了索引的组织性。当然传统的索引可能仅仅是基于文本的,而并非根据文本所表达的概念的类型分别组织,而常常进行“混排”。这是因为传统的索引在功能上仅仅要求做到能够查检。其实这种“秩序”可以有多种形式表达,例如可根据“主题”关系,揭示出索引概念的相互关系和层次关系,传统的“知识组织系统(KOS)”都可以被用来排序索引。这种有序性还可以利用数据可视化技术以多种形象的二维或三维方式表现出来,并赋予互动的浏览视图。传统的索引通过印刷排版技巧(字体字号空格缩进段落等)来实现一定的可视化组织,有序化和可视化可以认为是一体的。
(3)“引得”性:“引得”性是指它可以通过“索引”单元指向出处,达到可检,甚至具有双向参照功能。传统的索引通常为了查检原文或出处而编制,这是索引的根本目的,形象地翻译成“引得”,意即“一引即得”,通常是通过标注页码或位置信息实现这种“引得性”功能。一本书的书后索引是这本书中所涉及的重要概念的词表,离开了这本书,这个词表当然不能说完全失去了意义,但至少它成了无本之木。因此从索引单元指向其出处的“链接元素”也是非常重要的,是构成“引得”性的基础。
2 关于“数字索引”
参照张琪玉先生对“索引”的定义,可以给“数字索引”做如下定义:
“数字索引”是数字化文献或文献集合中,对所包含的各组成单元、局部主题,或所涉及的各种事项(如时间、地点、人物、机构、事件、物质、产品、设备、公式、数据、著作等任何有独立标识的网络存在)赋以可解析标识(如各类URI)并辑录汇总,按一定顺序或可视化形式编排的数据集合。应用时可在文献或文献集合中标注链接,同时在索引单元中标注指向文献的反向链接,以便能方便地进行双向参照、参考、引用、检索或进行可视化呈现。
张琪玉先生说文献数据库其实是索引在数据库时代的一个自然发展。如果考察数据库时代的技术特征,可以发现,不论是文摘题录数据库,还是全文数据库,“数据库技术”所提供的,其实就是一个查索和“引得”手段,界面不同、方式不同,但是目的和功能还是相同的,技术提供了更加高效和强大的工具,索引的工具性质还是没有变。
按照索引的三个基本特征来分析,数据库以文献单元为“记录”,具有“单元性”;按照各种方式排序输出显示,具有“有序性”;能够给出原文出处或者直接提供原文显示,具有“引得性”。只是可能无法给出整个“索引”的全貌,以及一般只能从索引联系到出处,而不提供从文献到索引的联系。
互联网时代为“索引”提供了一个更为广阔的数字资源和技术应用环境。目前以关键词匹配为主要方式的搜索引擎已经不能满足人们查找信息的需要,信息超载使得相关排序、语义查询成为信息搜索的热门技术,并且面对信息质量的良莠不齐鱼龙混杂,信息的可信度评判也已成为信息过滤的一项关键技术。如果我们引入索引的思想,可以发现,索引技术所面对的信息环境,虽然也是互联网环境,但可以局限于万维网的一个子集,例如学术信息、某个组织所收藏的信息、某个学科领域的资源,等等,在有限集合内的信息组织可以采用知识组织和语义标注的技术成果,通过“索引体”的构造,提供一定信息体以独特的单元知识查索途径及组织方式,甚至提供一定信息体一个独特的视图“缩影”。尤其值得引申的是,这类有组织的知识单元组成的体系是可以共享的,它们本身就是一种领域本体。
面对网络资源,索引如果不能进一步明确其特征,发挥其独特的优势,发掘其潜在的价值,很有可能会迷失于大量的新技术和检索工具中,逐渐被人淡忘,最终消失于历史的舞台。但是通过以上的分析可以发现,索引思想还是很有价值、大有前途的。它甚至可以为正在崛起的语义Web和关联数据技术提供一个示范性的应用领域,而广泛地应用于知识组织、知识管理、术语服务、知识可视化等方面。
综上所述,我们可以对传统索引和数字索引进行如下对比:
| 传统索引 | “数字索引” |
对象 | 印刷文献、文献集合 | 网络文献、全文数据库 |
标目 | 词汇/概念 | URI |
指引 | 页码/位置 | 双向链接 |
排序 | 字顺/音序 | 多种/可视化 |
功能 | 查索 | 参考引用、关系扩展 |
3 Web时代数字索引的功能实现及其技术基础
万维网(Web)正在从文档的集合(Web of Document)走向数据的集合(Web of Data)。传统上我们将万维网看成由HTTP协议通过URL定位到海量的HTML文献,同时这些HTML文献包含图片及音视频多媒体文件和丰富的URL链接,将万维网编织成一张由文献组成的大网。而现在由于各类置标语言的涌现,特别是各类用于语义标注的元数据规范的大量出现,万维网上的信息单元已突破文献单位,而变成细粒度的由各类“微格式”描述的信息单元和知识单元。当前,需要进行“索引”的所有信息类型,如时间、地点、人物、机构、事件、物质、产品、设备、公式、数据、著作等等,几乎都有一种或几种格式描述标准(也即元数据标准)存在。这些单元信息都可以经由URI来标识,通过扩展的HTTP协议来获取。“微格式”的构成目前也已形成了一定的标准,其中最著名的就是RDFa(这是一种以XHTML形式出现的RDF模式)。这样,如同从处理图书、期刊等粗粒度的知识载体到处理文摘、索引、题录等细粒度的“情报”的过渡一样,万维网也经历了一次信息描述、处理、组织、利用的“粒度”上的深化。这就给以提取知识单元为特征的“索引”工具发挥作用提供了基础,打开了绿灯。
目前人们满足于互联网强大的链接能力,以及搜索引擎的搜索能力,似乎并不关注对一定范围的信息体或领域知识进行“索引”组织。这可能与提供“数字索引”的关键技术还太新、未得到普遍应用有关。有人认为搜索引擎可以看成是互联网上所有信息资源的索引,这其实是不正确的,数字索引的三个特征,搜索引擎一个都不符合:它通常以字词为单元进行匹配,而不是以知识点的概念语义为单元,其结构不开放,不具有明确的信息或知识的结构单元;它进行信息组织的秩序是核心技术机密,一般是不公开的,而且排序算法还在不断调整,不提供整个信息单元有序组织呈现;对于检索命中,它没有固定URI可以参考引用,而且常常命中过多,不具有唯一地址。因此搜索引擎完全不能用作数字索引,它的功能与数字索引是完全不同的。
以下技术可以看成是构成“数字索引”应用的关键技术:
l Web架构:即由HTTP、URL和HTML构成的协议体系,提供了“数字索引”应用的一个基本环境;
l XML/RDF编码:提供对于网页和知识单元进行描述的规则和置标语言;
l 语义描述:提供元数据与本体标准,即解决如何描述各类实体和各类应用模型的问题;
l 关联数据:Web架构的一种扩展,利用HTTP、URI和RDF描述数据,提供机器对于数据关系理解能力的一种数据组织方式;
l 规范控制:利用语义技术而使概念在互联网上进行检索或使用时能够保持一致性的方法,是术语服务的最主要的目的之一,目前普遍认为采用关联数据技术可以基本实现网络信息资源的基本规范控制;
l 信息可视化:知识单元成为“索引体”的有序化呈现方式,可以利用信息可视化的各类现有技术进行实现。
上述技术提供了从“索引点”(信息或知识单元)的编码、描述到进行链接、定位、检索、参照等所有需求的实现能力。
4 数字索引应用的情境分析和实现方法
当前可以说在万维网上还没有严格意义上的“数字索引”,虽然如维基百科这类以概念或词条为单元的网站可以被当作甚至用作“数字索引”,在结构上,维基百科的语义化网站DBPedia由于开放了API,每个词条都做了结构化描述,并具有独立的URI标识,还可以利用SPARQL语言进行知识检索;在秩序上,提供各种排列方式,包括地图和时序等可视化方式。但在“引得性”方面,由于不提供从词条到引用主体的反向链接功能,就不能满足索引的要求了。如果说维基百科是一种“索引”或“索引服务”,它是什么东西的索引却很难得到说明。
这其中一个关键问题,就是虽然互联网上的各类资源(如网页)都可以指向维基百科,由维基百科提供相关概念词条的解释,但是维基百科却没有反向链接指向索引主体,它并不知道哪些资源参考了它,它并不能给出那些参考资源的一个完整的索引点的列表,或进行可视化展示。
信息体存在文献和知识单元两个层次是索引存在的前提,索引体提供对其主体的一种查索和组织工具,其自身可以是一种局部的视图,从一个侧面反映了整个信息体。在万维网上,索引体虽然具有更强的独立性,更能够独立于被索引的主体而存在,但也不应该完全脱离主体,否则就不能称其为索引,而只是一种独立的知识查考工具了。当然大量的独立存在的词表、百科词条在现有的万维网开放技术框架下完全可以被“重用来”作为各类信息体的索引基础,其关键在于添加由词条指向被索引体原文的链接,这在技术上也不是什么困难的事情。
数字索引的反向链接最简单的办法是采用类似博客平台的traceback(引用通告) ping自动留言,只要做了索引,就在索引网站留下一个链接。当然简单采用这种方法也有缺陷,即这些所留下的链接是无序的,也无法自动汇总,并且可能会出现大量垃圾链接。但是这些缺陷都是有办法解决的。
我们可以设想这样一个情境,某出版社需要在网上出版一套大型综合性的文献丛书,其中涉及很多的人名、地名、机构组织、事件等知识点在维基百科中已有词条,这套文献丛书的网络版在涉及相应的名称概念时都标注了指向维基百科的链接。那么,这套丛书的索引应该怎么做呢?
可以有多种做法:
第一,把所有的词条抓取到本地,进行本地化、个性化之后建库(这里可以认为是在已经获得使用权利许可的情况下)。提供各种排序浏览和组织方法,例如按照人名、地名、机构名、事件名等分门别类编制索引,也可以按字顺混排;可以按字顺列表,也可以按照地图、时序或其他可视化组织方式。这样的索引可以作为本套丛书的一种附加服务,提供检索和到原文的链接;可以以光盘格式,或者印刷等多种方式输出和出版。
第二,创建一个动态的服务网站,按照文献丛书中所标注的索引词列表,实时地从维基百科网站中提取内容,组织并呈现出来。这种方法能够动态地获得最新的词条内容,所需的界面和功能是自己可控的。缺点是需要假设网站,并编写程序开发系统,才能实现相应的需求;而且如果维基百科中相关词条的链接地址发生改变,就无法自动获取相应的内容。
第三,对维基百科之类的术语服务应用进行改造,使其能够接受Traceback反向链接,并按照来源链接进行词条汇总并可视化呈现。虽然目前维基或其他术语管理软件并没有此类功能,但好在大多数维基建站软件(如维基百科所用的MediaWiki,以及其他常用的Moinmoin等维基软件)和具备术语服务功能的内容管理平台(如Drupal、Wordpress等)都属于开源软件,为其开发专门的扩展插件并不是非常困难的事情。更为可喜的是,这些软件本身已开始支持微格式和其他语义描述模式,并开始支持关联数据的标准发布形式,维基百科同时还有一个关联数据版本(DBPedia),其收纳的数据包含丰富的结构化语义信息和相互之间的关联信息,索引可以据此开发出十分丰富的功能。
如果我们广泛采用第3种方式开发各类网络词表和百科类工具书,这些内容都可以作为对于各类文献库进行索引的词条基础,任何信息体都可以利用这些词条形成自己个性化的索引入口,利用语义关联信息提供许多“智能”化的服务。也就是说每种索引可以有一个统一的入口,提供该类索引的一个整体视图,进入后可以是一个列表,也可以以多种可视化界面方式提供浏览,并应该可以对索引直接进行查询。同时每个索引词(知识单元)都有自己独立的URI,并提供到其他索引词的语义关系描述和URI链接。
本文无意于、也不可能提出一套数字索引的完整解决方案,而只是通过现有技术的分析,使大家能够认识到实现数字索引的可能性。具体如何实现,还需要在实践中探索,还需要大家共同努力。
5 案例分析:用《全国报刊索引》构建数字索引服务
《全国报刊索引》于2003年开始提供基于网络的检索服务,虽然一直冠以“索引”之名,其实就是一个一般意义的网络数据库。被该库收录的期刊和论文在网络上并无独立标识,检索者利用该数据库其实也只是获得一个文献的线索,无法物理地指向原文,它也不提供除检索命中结果集之外的有序化组织,更没有到被索引对象的链接或者反向链接,因此其实不能称其为功能完整的索引,或者说《全国报刊索引》是一个对于完全虚拟的“全国报刊全文库”的索引,并不符合本文前述的索引特征三要素的要求。
然而全国报刊索引如果经过一定的改造,转换成基于网络的数字索引系统并非不可能:
(1)明确其索引的对象和主体单元,尽可能应用索引对象的唯一标识系统。例如DOI、URI、本地文献标识甚至馆藏号。《全国报刊索引》的索引对象,主要是上海图书馆的中文期刊馆藏,因此即便国内的期刊论文还没有实行统一的DOI标识,是否可以在本馆内部建立一套标识系统,一方面可以利用全国报刊索引将馆藏期刊论文数据对象管理起来,另一方面可以应用于原文提供流程,有利于业务流程重组。将来如果期刊论文的统一标识标准化之后,也可以方便地与馆外的DOI系统甚至OpenURL服务挂接。
(2)利用全国报刊索引所收录的期刊和论文内容,开发各类附加索引权威档,例如作者、刊名、机构、主题、事件……等等专题索引或主题索引,将这些索引作为全国报刊索引的附加服务,在网上免费提供,并基于这些权威数据开发相应的工具和平台,开放API。这类附加服务将使全国报刊索引具有核心竞争力,从而在未来的网络服务中立于不败之地。
(3)在关键词基础上提供标签标注和大众分类法功能,考虑规范成KOS或本体,进行索引单元的可视化组织呈现。
(4)在明确索引单元的基础上,利用规模化的海量数据为各图书馆提供二次文献到全文的检索服务,即将全国报刊索引应用为其他全文期刊库的统一检索平台或统一资源标识解析服务。这就要求全国报刊索引在技术上有自己的独特之处,例如提供上述各类基于语义的功能,等等。
举例来说:全国报刊索引如果能够为每一个刊物、每一本期刊汇聚单独的索引,同时其自身也成为所收录的文献空间的一个综合性的整体索引,其所涉及的知识单元和信息单元,都构成这种索引的组成要素。这样的索引服务就能够提供丰富多彩的附加功能,更能够契合科研人员、教师学生等广大学习型研究型用户的需求。
目前全国报刊索引最大的优势是其数据量,然而这个优势正在被其他新兴的文献数据库超越,使其必须挖掘其经过长期历史积淀而形成的知识优势,将其中可以索引的知识点充分挖掘出来,利用新技术,结合新的商务模式探索,提供开放检索,发挥综合优势,打造核心竞争力。
6 结语:数字索引学的研究及其未来
数字索引从理论上与传统的索引学一脉相承,并不具有很多特殊的地方,基本上还是一个实践的领域。或许当实践进行到一定阶段时能够反映出与传统索引不同的独特问题,值得进行进一步的深入探讨。因此目前数字索引学的研究内容大致可罗列为以下几点:
l 与传统索引的转换研究;
l 数字化资源建立或转换过程中索引的自动构建、抽取和生成研究,包括书后索引的自动建立、方正格式等的索引点标注等问题;
l 可用作索引的标识体系研究,如哪些知识单元值得进行索引?如何进行标识?各种URI用作索引的适用性问题等;
l 元数据格式(如何描述、表达、互操作,如RDFa、各种微格式等);
l 有序化(自然顺序之外,还包括本体和各类KOS)组织方式及可视化呈现的方法和技术。
在可以预见的未来,数字索引领域的研究有望在确立信息单元的结构化描述标准规范、创新内容组织和有序化方式、探索各类索引体系基于万维网的互操作方法以及链接关系的网络计量学研究方面取得许多突破性进展。我们相信数字索引学如果能够依托语义技术,立足领域应用,不断为各类数据库信息库知识库提供组织、整序和查检工具,一定会有一个光明的前景,这门传统的技艺和学科也一定能在网络时代得到发扬光大。
参考文献
1 张琪玉著.张琪玉索引学文集[M]. 北京:国家图书馆出版社,2009
刘 炜 男,上海图书馆数字图书馆研究所所长、研究员,发文数十篇。