文 摘 本文介绍了引文及引文有关知识之后,说明了引文索引的国内外发展状况,阐述了引文索引的两个重要功能及引文索引的编制原理。并举例说明了自动引文索引系统CiteSeer的索引原理。
关键词 引文索引 自动引文索引 索引原理
1 引文
在科学著述活动中,作者往往要直接或间接地引用他人的著述,以提供文章的佐证,提供历史背景材料,来加强论述的可信度,帮助读者更好地理解作者的观点。这些引用他人的著述就是引文。
引文是学术论著的一个很重要的部分,有关标准或规范对之有着明确的定义。引文可以描述为:在文献A中提到或描述了文献B,并以文后参考文献或注释的形式列出文献B的出处,其目的在于指出信息的来源,提供某一观点的依据,借鉴、陈述某一事件事实等等。这时,我们称文献B为文献A的引文,称文献A为文献B的引证文献。引文通常也称为被引文献或参考文献,引证文献通常也称为来源文献。
从上述引文的定义描述中可知,引文有两种类型,一是参考文献,一是注释。参考文献是作者写作论著时所参考的文献书目,一般集中编列。根据援引的精确度,参考文献可分为引用性文献和参考性文献两种。而注释是对文献正文中某一特定内容进一步注释或补充说明,可分为:文中注、脚注、尾注和文中引等。注释一般排在该页的地脚;尾注也可列入参考文献的范畴。
2 引文索引
2.1 引文索引的发展
上世纪初,前苏联瓦尔金,首次运用引文分析方法研究包括前苏联在内的科学家们对化学发展的贡献。上世纪50年代,文献学家开始对引文索引和文献引用规律进行研究。1955年,美国著名的情报学家加菲尔德,在《科学》杂志上发表了《引文索引用于科学》一文,提出了以引文索引来检索科技文献的方案。1963年,《科学引文索引》(SCI)单行本面世,使引文索引达到了实用阶段。随后,1973年,又出版了《社会科学引文索引》(SSCI),1978年出版了《艺术和人文科学引文索引》,这就是世界上著名的三大引文索引。
1985年,中国科学院文献情报中心研制成功《中国科学引文索引》。之后,中国科技信息研究所也研制出《中国科技论文与引文数据库》。这两种引文索引为我国进行自然科学论文的分析和评价,提供了科学的计量化工具。1998年,南京大学的邹志仁等开始研制《中文社会科学引文索引》(CSSCI),并出版了光盘版和网络版。近年来,清华同方光盘股份有限公司,分别与中国科学院文献情报中心、中国社会科学院文献情报中心合作,研制成电子版的《中国科学引文数据库》(CSCD)、《中国人文社会科学引文数据库》(CHSSID)。清华同方把这两个数据库与创建的其他数据库(如《中国科学计量指标数据库》等等)一起,成立“中国文献评价网”。至此,我国的引文索引及其数据库建设已初具规模,格局初步形成。
2.2 引文索引的两个重要功能
引文索引,以语义稳定的引文作为文献的标引词,建立起能够展示文献之间内在联系的索引系统。标引词的选择可以是题名、作者、刊名等。引文索引系统打破了传统的学科分类界限,既能揭示某一学科的继承与发展关系,又能反映学科之间的交叉渗透的关系。因此,引文索引在文献检索、科学计量、科学管理等方面有着其他检索工具无法替代的独特作用。
总的来说,引文索引一方面具有检索工具的功能,为查找信息开辟了新途径;一方面具有科学计量工具的功能,为进行引文分析提供有力的保障。
作为检索工具的引文索引,能够对被引文献进行标引,链接引用的文章。检索时允许用唯一的方式―导航,来查找所需文献。使用的检索入口,可以是被引文献的题名、作者、刊名等。
作为科学计量工具的引文索引,主要用途是引文分析,分析引文的各种特征,以资评价文献。引文分析就是利用各种数学及统计学的方法,以及比较、归纳、抽象、概括等逻辑学方法,对科学期刊、论文、著者等各种分析对象的引用或被引用现象进行分析,以便揭示其数量特征及内在规律的一种文献计量研究方法。目前,引文分析的研究主要沿着3个方向发展:①从引文入手,用于评价期刊和论文;②从引文之间立体网络关系着眼,研究将这种关系用于揭示科学发展、沿革、历程和前景;③进行引文分析,反映主题相似性的研究,用于描述科学结构和文献检索。
引文索引,作为一种检索工具,鲜为用户熟悉,并不流行;作为一种科学计量工具,广为科学计量人员应用,十分广泛。
3 引文索引的编制原理
引文索引的基本原理是,根据文献的相互引用关系建立索引系统。文献之间的相互引用构成文献网络。使用这种方法建立的索引系统,可以检索到一族文献,且可通过不断追溯检索,能获得更多的相关文献。因此,引文索引最核心的部分是引证索引和来源索引。
引文索引的编制也经历了从手工到机器辅助,到自动索引的过程。机器辅助编制引文索引的步骤为:①确定收录范围;②文前处理,著录文献;③编辑累积,排序数据,编成文档;④出版。
索引的编制从手工走向机器,极大地提高了效率,费用低廉,索引出版数量剧增。近几年,随着网络技术的飞速发展,使得WEB上科学文献急剧增长。但是,这些WEB文献存在着一个严重的问题――极端无序。鉴于这种状况,研究人员着手提高索引编制的自动化程度,应用计算机自动地编制索引。
4 自动引文索引实例分析
4.1 CiteSeer简介
CiteSeer(又名ResearchIndex),是NEC研究院在自动引文索引(AutonomousCitation Indexing, ACI)机制的基础上建设的一个学术论文数字图书馆。这个引文索引系统提供了一种通过引文链接的检索文献的方式,目标是从多个方面促进学术文献的传播和反馈。
CiteSeer检索WEB上的PostScript和PDF两种格式的学术论文。目前,在CiteSeer数据库中可检索超过50万篇论文,这些论文涉及的内容主要是计算机领域。这个系统能够在网上提供完全免费的服务(包括下载PostScript或PDF格式的论文的全文)。该系统的主要功能有:①检索相关文献,浏览并下载论文全文;②查看某一具体文献的“引用”与“被引”情况;③查看某一篇论文的相关文献;④图表显示某一主题文献(或某一作者、机构所发表的文献)的时间分布。
4.2 CiteSeer的索引原理
(1) 装裁文献。CiteSeer使用WEB搜索引擎(如AltaVista、HotBot和Excite)及启发式方法爬行网络,搜索信息,下载PostScript或PDF格式文档,运用“新西兰数字图书馆工程(theNew Zealand Digital Library Project)”中的PreScript,进行文本转换。转换后,检查文档的引文状况,如引文的形式、出现的位置。最后按印刷页逆序排列文档。
(2) 处理和分析文献。一旦CiteSeer发现有可用形式的文档,它定会定位到参考文献,或通过识别头部来定位引文。引文位置及形式确定之后,CiteSeer开始抽取引文,并通过引文识别符、向量空间或缩进来描述引文。CiteSeer分析每一篇引文,使用“Heuristics”模块抽取字段,如题名、作者、出版年、页码或引文识别符。CiteSeer使用4种方法来识别和组织论文中的引文:①串位距或编辑位距测量;②词频或词出现测量;③使用子字段或数据结构知识;④概率方法。
(3) 提问和浏览。CiteSeer使用关键词方式供用户进行提问,搜索文献,搜索后返回一个与提问相匹配的引文列表(被索引文献的列表)。列表中,引证文献和被引文献之间建立了关联链接,而且索引了引证文献和被引证文献的全文。检索式是布尔检索。用户搜索到文献后,可使用引文链接进行浏览。
以上介绍和分析了引文索引的功能和索引原理。我们可以得知,网络给信息传播带来了革命性的变化,扩大和改变了信息的获取途径。自动引文索引对于组织科学文献有着很大的帮助,可以有效地改变信息传播和反馈的效率,加快知识的传播速度。自动引文索引系统在网络环境中链接了科学文献,使得科学家能够迅速追踪文献的来源和途径,能够最快速度地获取所需文献。
参考文献
1 孟继红.新颖独特的引文索引.四川图书馆学报,1996(6)
2 中华人民共和国新闻出版署.中国学术期刊(光盘版)检索与评价数据规范.http://www.cnki.net/wxpj/guifan.htm
3 苏新宁.中国社会科学引文索引设计.情报学报,2000(4)
4 戴维民.20世纪图书馆学情报学.北京图书馆出版社,2002.11
5 刘君玉.引文分析的评价.情报理论与实践,1998(2)
6 戴维民.国外机编索引发展概述.中国图书馆学报,1994(1)
7 Steve Lawrence, et al.Digital libraries and autonomous citation indexing. IEEE Computer, 1999(6):67~71
衡中青 中国索引学会会员,现于佛山科学技术学术图书馆从事自动化工作