中国索引事业:当前格局与问题 张琪玉
发布时间:2018-09-25  浏览次数:13

・评论・

中国索引事业:当前格局与问题

(南京政治学院上海分院  200433)

       本文指出我国索引事业当前以网上文献数据库为主的传统索引、网上文献数据库和网络信息检索工具三分天下的新格局已初步形成,并阐述网络信息检索工具、网上文献数据库、传统索引、索引语言、索引创新、索引知识普及、中国索引学会等诸方面的问题。

关键词  索引事业  中国

1 我国索引事业的新格局逐渐明朗

随着因特网在我国的飞速发展,文献数据库的纷纷上网,特别是几个力量雄厚的索引公司的崛起,我国索引事业的新格局已悄悄出现,传统索引、文献数据库与网络信息检索工具三分天下的局面在最近几年初步形成。

图书索引是一大独立类型,本来也应占一分天下,但目前还没有形成气候。

但传统索引从业人员,文献数据库从业人员和网络信息检索工具从业人员之间彼此还很陌生,许多人还没有意识到其实大家都是属于知识和信息检索服务这个行业(或者说索引事业)大家庭的成员,故彼此“认亲”、互相“磨合”还需要有一个过程。

2 网络信息检索工具是新颖的索引

因特网是一项建立在高科技基础上的全球性信息资源共享的通信设施。它采取完全开放的原则,全世界任何机构和个人都可以在该网络上发布任何信息,也可以在该网络上获取任何信息(虽然有部分信息是收费的,但大部分信息可免费获取)。因特网上的信息资源犹如汪洋大海,数量极其庞大,并且极为分散和无序,这就会形成网络信息交流传递的阻塞。要在因特网上寻获针对特定需要的信息资源,如果不藉助于网络信息检索工具的话,则其难度无异于海底捞针,上网成功率极低。正是在这种情况下,网络信息检索服务便应运而生,为网络用户提供网络信息检索工具是网络信息检索服务的基本形式。目前,绝大部分网络用户都是通过网络信息检索工具来获取符合自己需要的网络信息资源的。

网络信息检索工具从其结构原理可分为两大类型:(1) 关键词检索型网络信息检索工具,它是真正的搜索引擎,使用网络机器人一类软件自动搜索网页,建立文本型索引数据库,提供从关键词检索网页的功能;(2) 分类浏览检索型网络信息检索工具,它实际上是按照某种主题分类体系进行组织的分类检索工具,提供分类浏览检索网站的功能。这两种类型检索工具实际上都是网络资源索引。

目前,网络信息检索工具的检索效率(特别是检准率)还比较低,提高其检索效率是当务之急。在开发网络资源方面,传统索引专业人员目前还很少介入,其实是大有用武之地的。上海图书馆馆长吴建中博士指出:“图书馆员需要互联网,互联网更需要图书馆员”。目前,这是传统索引专业人员应特别关注和投入开发的一个领域(特别在建立各学科、专业的网络资源导航系统和编制精选的网络资源索引数据库方面)

3 纷纷上网的文献数据库正在占据索引事业的主要地位

文献数据库是索引事业现代化的标志和成果,从其收录规模和检索功能看,已远远超过传统索引而成为我国索引事业的主要部分。

从上世纪80年代开始,我国一些检索刊物纷纷出版光盘版,90年代又纷纷将光盘版发展为网络数据库,并大力建设全文数据库上网服务。特别是近十年左右,全文数据库的飞速发展,一些赢利性数据公司(索引公司)的崛起,加快了上网文献数据库的发展。

我国赢利性数据公司数量虽然不多,主要有万方数据有限公司、重庆维普咨询公司、清华同方数据公司、中国人民大学复印报刊资料社、上海图书馆等几家,但它们都已达到相当规模。

以清华同方的《中国知识资源总库》(CNKI)建设工程为例,据200411月的报道,该网络工程所汇集的上网国内数据库约有1100个,其包含的文献信息总量已达6300万条(含部分国外文献库信息)。该网络工程包含的重要文献数据库有《中国学术期刊全文数据库》、《中国重要报纸全文数据库》、《中国重要会议论文全文数据库》和《中国优秀博硕士学位论文全文数据库》等重要资源。

万方数据库集中了12123个数据库,其中《专利文献数据库》包含130多万条专利信息,《国家法律法规全文数据库》包含1949年建国以来的法律法规约10万篇,《中国企业、公司及产品数据库》包含16万家企业的信息。

许多专业文献数据库除利用CNKI等网站推出服务外,近些年也随着本单位网站的建立而上网服务(往往是免费的,参看《中国索引》2003年第2期:页45-46)

4 传统索引部分地已被网上文献数据库取代但仍有不少发展空间

在这里,传统索引是指除图书索引(专著索引、书后索引)以外的各种印刷型索引(在当前也采用小型数据库形式),由图书馆、情报机构、资料室或个人(作为著作活动)进行编制。

传统索引以专题索引和检索刊物为主,大部分属于参考咨询工具和文献报道工具。在网上文献数据库服务已经相当普遍的情况下,那些订购较多种网上文献数据库供检索使用的图书馆和情报部门,已能满足读者大部分的检索需求,自编传统索引的必要性已大大减少。可以说,网上文献数据库在很大程度上已可取代传统索引工作。

但是,传统索引工作中的一些极具个性化的索引品种,网上文献数据库仍是取代不了的。例如:①某些要求高度学术水平的专题索引;②地方文献索引;③收录文献必须进行严格选择的索引,收录文献类型必须全面的索引,收录文献必须进行特殊标引和编排的索引;④特殊收藏的索引;⑤针对个别专家的特殊需要的索引;⑥某些进行通报服务和宣传推荐的索引;⑦反映本单位成果(本单位文献)的索引;⑧个人著述目录索引,等等。

由此可见,传统索引从数量上说可能有一大部分可以被网上数据库所取代,但许多极具个性化的品种是不可能被网上文献数据库所取代的,所以它将永远存在,仍有不少发展空间。传统索引也将越来越多地采取数据库形式,编成之后,可以上网供共享。

另外,某些必须专门编制的索引,其需要收录的文献可能大部分已被网上文献数据库收录,是重复的,只要通过对网上文献数据库进行检索,下载检索结果作为其基础,再行补充和加工整理就成,可大大节约编制工作所需的人力和时间。所以,网上文献数据库有助于编制某些类型的传统索引。

在网上文献数据库的基础上进行索引数据的再加工(深度加工),编制各种派生数据库和符合特殊需要的高质量索引,可能是索引工作的新内容。

总而言之,网上文献数据库与传统索引这两大部分是互补的,缺一不可。两大部分应并驾齐驱。

5 自然语言完全取代索引语言的神话不可能实现

索引语言(即情报检索语言,也常用“人工语言”一词表达,具体如分类表、词表等)除用于图书情报机构组织其收藏文献和目录(或目录数据库)外,主要用于各种质量要求高,特别是连续性的检索情报源的大型索引和数据库产品。在直接检索事实情报的索引(即图书索引、专著索引、书后索引)以及收录规模不大的索引中,是不使用索引语言的。虽然索引语言非常重要,但传统索引人员中关注它的并不很多。

从事网络信息检索工具编制的人员,由于关键词检索型网络信息检索工具使用自然语言检索,不使用索引语言标引网络信息;而分类浏览检索型网络信息检索工具所使用的虽然也是一种索引语言,但其相当简陋,所以,他们也不大了解索引语言。近些年,正是这些网络信息检索工具的编制人员和关注网络信息检索工具的人员,在他们发表的言论中,一再提出“索引语言不适合组织网络信息的需要”,“自然语言取代人工语言(即索引语言)是大势所趋,人工语言将会消亡”等等观点,影响了人们对索引语言的认识和进一步研究。

其实,关于自然语言检索的研究已有半个世纪,但至今仍停留在检索效率较低的关键词检索阶段。当今搜索引擎关键词检索处于效率低下但又必须使用的无可奈何境地,正是利用自然语言自动化建立索引数据库所造成的。一方面,高速的自动化建库方法似乎是必然的选择,另一方面,这种数据库只能提供检索效率低下的关键词检索途径。“令您苦恼的是,即使使用这些检索工具,您往往得到的是成千上万条似是而非的网站名称,面对它们您不得不承认‘因特网信息检索定律’:在因特网上您总能找到(甚至只能找到)不需要的东西”。这段话是美国流传的一则幽默,十分风趣,很值得我们寻味。

搜索引擎所提供的信息,与上网文献数据库所提供的信息,虽然都可认为是网络信息,但并不能说明搜索引擎使用自然语言,上网文献数据库也必须使用自然语言。这是两种处理对象,绝对不能混为一谈。

事实上,即使在当今,人工语言在网络信息检索中仍担任着重要角色,至少是与自然语言平分秋色,那就是提供着绝大部分学术信息的文献数据库,都是使用人工语言组织的(至少是人工语言与自然语言并用,以人工语言为主),不使用人工语言来组织那些文献数据库,其质量是不堪想象的。要是自然语言能取代人工语言,那么,人工语言岂非在一夜之间就会被不需要任何标引的自然语言所取代?

我的观点是:自然语言检索必然要继续向前发展。网络检索不能唯一地使用自然语言。自然语言的前途仍然要走向控制、规范,当然,控制的方法会与过去人工语言所采用的方法有所不同。

人工语言和自然语言都起着不可取代的作用,因而对两者的研究不可偏废。这两方面的研究,应朝着并且必然会朝着从两者的初步结合到完全融合,即情报检索语言的自然语言化、自然语言的情报检索语言化的目标前进。

6 索引需要创新

索引创新是索引学研究的核心和根本目的。索引创新包含下列诸方面:

(1) 索引项的创新。索引项这一概念,是指文献中被索引对象的类称。所谓索引项的创新,是指发现新的索引项。索引项的每一次创新,都是对文献资源中未被利用的信息成分的一种发掘,其结果是创造一种新的索引品种乃至索引类型。有些索引项的发掘具有重大意义,可以说是索引领域的一项发现或发明。例如,文献之间引证关系被发现可作为一种索引项,导致了引文索引的产生。如果我们浏览一下《中国索引综录》,就可发现,许多索引项是我们所意想不到的,当然,那已经是过去的创新了。可以肯定,还有许多的索引项有待索引工作者去发掘。

(2) 索引方法的创新。索引方法(包括标引方法)的创新,大方向是索引工作的计算机化,具体的方法则层出不穷。以自动抽词和自动分类标引方法为例,其创新就无止境。检索新技术也在不断出现,这也可以划归索引方法的创新一类。

(3) 索引形成的创新。索引形成从手稿型、印刷型、缩微型到机读型,机读型又从磁带型、软盘型到光盘型,目前又出现存贮于服务器的网络型等。每一步发展,都是一种创新。当然,随着信息技术的发展,这种创新也会继续不断。

(4) 索引选题的创新。索引选题十分广泛,每一种人们对索引的新需要的发现,编制新的索引填补了索引领域的一个空白,都可以认为是索引选题的一种创新。万事万物,皆可索引,皆可进行索引服务。与科研、教学、管理、人们的学习和社会生活的各个方面的密切联系,是索引选题创新的源泉。索引选题的创新,是索引创新的主要内容。

(5) 索引应用的创新。索引的功能虽然主要是帮助人们方便、有效、充分地利用文献资源,但并不仅限于此。过去,索引曾用于指导阅读、用于历史研究等。近年,发现索引的一个新应用是文献计量和情报研究。现代的索引――数据库则广泛应用于各行各业,成为管理各项工作的有力工具。索引应用的创新是促进索引事业发展的动力。

(6) 索引学的创新。索引学的创新对于推动索引的创新和索引事业的发展有重要意义。索引学创新的一项重要内容是认识了现代的索引就是数据库,从而扩展和更新传统索引的范围和内容,促进索引和索引事业的现代化。

7 索引知识亟待普及,索引专业队伍亟需壮大

我国索引知识的普及程度非常低。举例来说,①我国出版事业已相当发达,每年出版的图书达十多万种,但附有索引的图书却只有3%左右(不包括工具书)。图书索引的稀少与图书编辑人员对索引重要性的认识不足有关;②期刊年度索引半个世纪以来都是采用栏目分类法,主题索引和真正的分类索引非常罕见。而栏目索引是检索功能极低的索引,但大家都熟视无睹,甚至图书情报专业人员也认为这很正常;③索引研究文献不但很少,而且大多研究深度不够,所用术语也很混乱,外行话很多;④国外许多产品说明书都有索引,我国连大多数地图都没有索引,可见国外索引知识的普及程度,我们实在有很大差距。

要使我国索引事业发达起来,索引知识的普及无疑是重要条件之一。

我们也需要逐渐扩大从事索引工作的职业队伍。国外,大多索引工作者是自由职业者,我国几乎没有这种索引工作职业队伍,所以作者和出版社也无法将编制索引的工作承包给职业索引家去做。

8 关于中国索引学会

中国索引学会的成员主要是图书情报专业工作者,从事出版工作、数据库工作和网络信息检索工具工作的人员极少,所以,学会在学术活动上的能力有限。前面已经说明,我国索引事业的格局近年已成三足鼎立形势,如果不及时扩大会员范围,改变学会成分,恐怕就会失去发展的机会。

中国索引学会最好集中力量做一、二件大事,要做就做好。如在全国范围内推进专著索引(书后索引)的编制,或普及期刊年度索引的编制。


参考文献

1 互联网出版合作中心:《中国知识资源总库》迅速汇集国内外资源.CNKI简报,2004(2)

2 吴建中.图书馆员需要互联网  互联网更需要图书馆员――在中文元数据应用国际研讨会上的总结发言.图书馆杂志,2001(6)

3 张琪玉.告别手工索引时代――一名中国索引学会会员的思考.情报资料工作,2000(1)

4 张琪玉.网络信息检索工具发展的方向与提供竞争力的途径(研究报告).深圳巨灵信息技术研究所,2001

5 张琪玉.网络信息检索工具增强关键词检索功能的措施.图书馆杂志,2001(1)

6 张琪玉.关于自然语言检索问题.图书馆论坛,2004(6)

7 张琪玉.索引的创新.图书馆理论与实践,2002(4)

8 周柏康.对书后索引现状的一次调查.中国索引,2004(4)

张琪玉  南京政治学院上海分院信息管理系教授,中国索引学会副理事长。