中外引文数据库的定性定量比较分析
发布时间:2018-09-21  浏览次数:30

    文    本文从选刊标准、数据覆盖范围、更新周期和出版形式、检索途径以及功能等方面对中外五种引文数据库――美国《科学引文索引》、《中国科学引文索引》、《中国科技论文与引文数据库》、《中文社会科学引文索引》、《中国学术期刊(光盘版)》进行了定性的比较和分析,并从收录完备性、数据误差率、标引深度以及文摘率四个方面对美国《科学引文索引》和《中国科学引文索引》进行了定量的比较。最后提出了几点改进建议。

    关键词 引文索引  中国  美国  《科学引文索引》  性能分析

    Abstract Qualitative comparison and analysis ondata coverage, renewal period, editions, search ways and the functions of fivecitation databases (SCI, Chinese Science Citation Index, Chinese Sci-TechPapers and Citation Index, Chinese Academic Journal<CDE>,Chinese SocialScience Citation Index) have been made. Moreover, quantitative comparison andanalysis on document quantity, data error, depth of indexing and abstractingrate of SCI and CSCI have been made by the author. Finally, we have given some suggestion on improving Chinese and American citation indexing systems.

    Keywords Citation Index, China, USA, SCI,Comparative Research

 

    1963年美国《科学引文索引》(SCI)的诞生以及1973年《社会科学引文索引》(SSCI)1978年《艺术和人文科学引文索引》(A&HCI)的问世,引起了图书馆及情报界的极大关注。许多国家开始了对引文索引的研究和编制,并相继开发了各具特色的引文数据库。我国学者早在1964年就发表了评介文章。但长达10年的“文革”使我国引文索引研究中断了十几年。20世纪80年代初又恢复对引文索引的研究,兰州大学图书馆、南京图书馆和江苏党校图书馆等都曾经进行过探索和试编。90年代以后开始正式立项研制引文索引,到目前为止已开发了4种引文索引系统――3种专门的引文数据库:《中国科学引文索引》(CSCI,简称中科院库)、《中国科技论文与引文数据库》(CSTPC,简称万方库)和《中文社会科学引文索引》(CSSCI,简称南大库);一种含引文索引系统的全文数据库:《中国学术期刊(光盘版)(CAJ,简称清华库)。下面将对国内外的这几种引文数据库作一个定性定量的比较分析。

1 中美引文数据库光盘版的定性比较

1.1  选刊标准

    我国中科院库和万方库等引文数据库都是参照美国SCI进行选刊的,引文数据、期刊标准和专家判断是三者筛选期刊的基本原则。相比较而言,SCI和中科院库的选刊标准更为严格。两者都是从核心期刊中选出具有代表性和权威性的重要期刊。因此,数据质量有保证,而且也能够基本满足科技管理人员、科研人员及科学研究的多种需求,同时也符合实际的建库力量,使得成本/性能比比较合理。但是SCI选刊时在数据源的地区、学科分布和语种方面存有一些偏向。在地区分布上,SCI的来源期刊绝大部分是欧美出版的。以1997年数据为例,SCCDE收录的3400多种期刊中欧美出版的占其来源刊物总数的92.4%;在其收录的916434篇科技论文中,欧美论文占75.3%;而其他国家和地区(尤其是第三世界国家)的期刊和论文被收录的比例却很小,这与它们在世界科研领域中所起的作用很不相称。在学科分布上,SCI主要以基础科学为主,略侧重于生物科学和数理科学,技术科学尤其是工程方面的论文比例很小。在语种方面,SCI主要收录的是英文版的期刊和文献。以我国为例,1997年被收录的9种期刊中仅1种是中文版,1998年也只有2种。近年来又有少量的增加。在被收录的论文中,84%摘自国外期刊上用英文或其它文字发表的论文。因此,SCI并不适用于整个自然科学领域,而且它的统计数据也不能完全准确地反映各个国家和地区在自然科学各领域的实际研究水平和发展状况。语言的限制也影响到SCI在实际应用中的通用性,对于许多非英语国家的科研人员来说,除非精通英语,使用时就会有很多障碍,SCI各种功能的发挥也将因此受到限制。所以,作为非英语的发展中国家,我们更有必要正确看待它的检索和评价功能。

    万方库的选刊标准相对宽松一点,所以期刊数量较多,扩大了检索的范围,但同时也降低了其作为学术评价工具的重要性。南大库没有完全参照SCI,它收录的文献大部分选自社会科学核心期刊(共有300多种),其余部分是全国重点高校学报(哲社版)和各省()的社会科学学刊及一些综合性的和交叉学科的刊物,因而,它可以为教育评估及社会科学研究和评价提供重要依据。清华库的选刊标准最松,所以,它收录的期刊最多。但由于该库因版权问题无法收录一部分重要的核心期刊,加上其收录的期刊又未经过严格的筛选,使得其检索结果的质量大打折扣。所以,它一般只适合于普通用户,而不能满足科研方面的检索需求,更不适合于进行科学评价。

1.2  数据覆盖范围

    现以下列各库近年的数据对其进行比较(见表1)

1  中外引文数据库数据覆盖范围的比较

                库名

 

内容

SCI(2000年数据)

中科院库(1998年数据)

万方库(1997年数据)

清华库(1999年数据)

南大库(1998年数据)

来源期刊数

3661种,其中中国的14

582

1250

3800

600

学科范围

自然科学

自然科学

自然科学

自科和社科

哲学、社会科学

引文数(年均)

900万条

12万条

7万条

166.7万条

28万条

来源文献数(年平均)

68万条;中国199716883

4万条

9万条

43万条

6万条

收录文献类型

书刊、会议录、专利

书刊、会议录

期刊

期刊

书刊

    从表1可见,SCI无论从上述哪一项来看,其总的数据量和覆盖范围都远远超过国内的4种数据库。它收录的中国期刊和论文、引文数却远远低于国内的引文数据库。被其收录的期刊数仅占我国目前正式出版的科技期刊总数(4386)0.21%。这与我国的科研状况和科研水平是不相称的。因此就整个自然科学领域的信息查询来讲,“SCI可以满足中国用户检索国际论文和引文的需要,但满足不了中国用户检索大量中文论文和引文的需要;在科技评价方面,SCI可以使中国科学家和决策者看到中国在世界科学技术发展过程中所处的位置,却满足不了分析和评价中国内部科学技术活动的需要。”[2]所以我们要有自己的引文检索工具和学术分析评价系统,要根据实际情况正确看待和使用SCI的检索和评价功能,否则将难以得出满意的检索结果或客观、公正、合理的结论。

1.3  记录字段

    SCI的所有可获得的字段共有17个,中科院库有9个,万方库有17个,南大库有12个。四者中SCI设计得最为科学,它为引文数据库的记录结构奠定了基础。尽管各库的字段都不尽相同,但基本上是以SCI为模板建立起来的。万方库揭示的信息最为详尽、明了。中科院库的字段相对简单了一些,但它的著录格式与SCI基本相同,揭示出的内容与其它3个库相差不大。南大库参照SCI设立了参考文献与相关文献字段。4库的详细著录项目见表2

2  中外引文数据库记录结构的比较

   

 

  

SCI

中科院库

万方库(引文库)

南大库

 

备注

记录编号

 

 

南大库只有记录次序号

题名(论文题名、来源文献题名)

南大库有英文题名

作者(来源文献作者)

南大库只著录前3位作者;中科院库的作者和作者单位及其所在地列在一个字段中

作者单位及所在地

 

 

 

来源书刊名

SCI还有来源书刊名的缩写

语种

 

 

 

中科院库在注明文献类型时附带说明

IDS/Book

 

 

 

 

文献类型

 

 

 

南大库有“文献类型”的检索字段;中科院库在文献题名中注明

学科分类

 

 

 

南大库有“学科分类”这一检索字段

基金类型(资助基金)

 

 

 

南大库有“基金类型”这一检索字段;中科院库只在题录中出现

机构类型

 

 

 

 

来源文献的年、卷期、页码

 

万方库的引文库未著来源文献页码;SCI的包括在“来源书刊名”一项中

作者自拟关键词

 

 

南大库有“标引词”检索项;中科院库只在题录格式中有该项

增补关键词

 

 

 

 

文摘

 

 

 

 

被引文献

 

 

 

被引文献题名

 

 

中科院库只在引文记录中有该项

被引书刊名

 

 

被引作者

 

 

SCI和中科院库只著录第一被引著者

被引年卷期页码

 

 

万方库中“被引文页”另列一著录项

被引机构类型

 

 

 

 

被引基金类型

 

 

 

 

被引文献数

 

 

相关文献数

 

 

 

相关文献

 

 

 

SCI可以链接到相关文献记录

共引文献数

 

 

 

共引文献

 

 

 

SCI可以链接到共引文献记录

馆藏

 

 

 

 

1.4  检索方式和检索方法

    尽管国内的引文数据库在检索方式和方法上借鉴了SCI,但还是有所不同(见表3)

3  4种引文数据库检索方法的比较

  库名

内容

SCI

中科院库

万方库

南大库

检索方式

字典检索、命令检索

字典检索、命令检索

命令检索

字典检索、命令检索

检索方法

右截词检索、综合检索

右截词检索、组合检索

组合检索

模糊检索、右截词(前方一致)、精确匹配、组合检索、排除自引

 

    综合检索主要是使用布尔逻辑符达到多途径检索的目的,以提高检准率。以SCI为例,它可以对已完成的检索式进行组配,对于限制性检索非常有用。但是,它比较专业化,普通用户不易掌握和操作。南大库的组合检索则相对简单些,它有非常友好的检索界面,用户只需在相应的检索项后填入检索词,系统就能自动实现多字段检索。而且,南大库有模糊检索和排除自引的功能,有利于提高检全率和引文分析的准确性。

    从检索点来看,SCI10个,中科院库有12个,万方库的引文库有15个,南大库也有15个。比较起来,SCI的检索途径最少,而且没有“被引期刊”检索字段,这是其美中不足的地方,但它的检索功能在实际中并不逊于其他引文数据库。万方库和南大库检索途径最多,都有15个,两者既有共同点也有差异。万方库虽然字段多,但有些途径是多余或重复的。比如“基金类型”和“被引基金类型”,这一途径对于大部分用户来说没有多大检索意义,其最大的用处就是便于统计数据,而这种功能完全可以让它以附属产品的形式体现出来。中科院库在这方面就做得比较好,用户可以在记录中了解论文的基金资助情况,而没有把它作为检索点。另外万方库中的论文和被引论文的页码也作为检索点,实在没有多大必要,而它没有关键词检索却是一大缺憾。南大库的检索途径设计得最为科学,不仅检索点多,而且都很实用。另外,它的截词和模糊检索的功能,在很大程度上提高了检索性能。南大库在被引作者检索中有排除作者自引的功能,这是其他3种引文数据库所不具备的。可以说南大库是后起之秀,综合了其他3种引文数据库的优点。南大库的检索途径多于SCI,但是没有显示或链接到相关文献的功能,这是它在参照SCI编制时留下的缺憾。

1.5  统计分析与评价功能

    SCI的出版机构每年都要出版《期刊引证报告》(JCR),统计分析其收录期刊的发文和被引情况,并根据影响因子、引用频次等一系列指标来评定期刊、论文在国际上的学术水平和地位。各国也可根据其期刊、论文的被引情况了解自己国家的学术研究的国际水平及科研人员和科研机构的学术水平。它的统计分析与评价功能具有国际性和权威性,但它客观存在的那些局限使它并不适合于地区或国家内部的统计分析与评价活动。中科院库有一套比较完善的统计软件,可以满足不同的统计需求,并可根据统计数据来对科研绩效及期刊进行评价,是目前我国自然科学研究领域比较权威和实用的统计分析与评价工具。万方库和南大库都能对作者、期刊、学科、机构的发文量和它们所发表论文的被引情况进行统计。不过万方库还能统计出各类型基金的发文及其论文被引情况,并附有各类统计表。南大库则还可对统计结果排队,并能根据统计数据确立各学科的核心学者群及重新综合出各学科的核心期刊,但是目前此功能还不完善。

2 中美引文数据库光盘版的定量比较

    因数据时限及学科的限制,下面仅用中科院库与SCI进行定量的比较

2.1  差错率

    对于一个检索工具来说,数据的准确性是保证其质量的最基本的条件。数据的重复收录、录入误差及其它随机错误,尤其是出现在索引字段的错误,将为检索者带来诸多不便。下面以SCI和中科院库均收录的208篇文献为样例,根据记录数据与原文中数据的出入情况来考查两者的误差率。

4  中外科学引文索引差错率的比较

库名

作者关键词

作者姓名

引文数

中科院库

19

11

10

SCI

12

21

30

    从上表可见,除关键词之外,其余两项中SCI的误差率均高于中科院库。其出入最大的在引文上,主要是引文数量上与原文的不符;作者姓名的误差主要是姓名的拼音缩写不正确,如“叶以富”著录成“Ye-FF”;关键词则是数量上的差异,其书写都很规范,这一点比中科院库好得多。中科院库常出现带上下标关键词录入不规范的问题,如C60变成C60,同时也有少数增加或缺少关键词的情况;作者姓名一般是书写与原文不符,如“邹键”写成“邹健”;引文则是数量不一致。

2.2  标引深度

    标引深度是衡量数据库检索性能的主要标准之一,它直接影响到主题检索的检全率。以SCI收录的331篇文献和中科院库收录的208篇文献为例,分别来看两者的标引情况。据抽样统计,SCI和中科院库分别标引关键词2004个和824个,他们的标引深度分别为6.053.96SCI的标引深度显然高于中科院库,一般都集中在47之间,有的多达15,而中科院库最多也就只有7个,一般都集中在35之间。这主要是因为SCI中有编辑者后加的关键词,在统计的960条记录中有57.4%有增补关键词。

2.3  收录完备性及文摘率

    收录完备性是评价数据库质量的重要指标,它直接影响到数据的检全率。这里主要是以两者收录的期刊在1998年发表的文章被SCI和中科院库收录的情况(发文量)及其文献被引频次为对象进行比较。

5  中外科学引文索引数据库收录情况

 

中国科学.B

化学学报

中华医学杂志

科学通报

发文量

被引次数

发文量

被引次数

发文量

被引次数

发文量

被引次数

中科院库

89

1021

192

625

336

632

688

1928

SCI

90

620

179

152

392

637

583

852

    5表明,中科院库和SCI所收录的这4种中文期刊在1998年的发文量分别为13051244篇,被引频次分别为42062261次,由此可见中科院库的收录中国论文和引文的完备程度要高于SCI,这一方面与我国的科研水平及期刊、论文的质量和英文水平有关,另一方面也与SCI数据源的地区不平衡性及语种局限性有很大关系。所以需大量检索中国论文和引文时,用中科院库比较合适。

    另外在统计的1338SCI记录中,带文摘的有1133条,文摘率约为84.6%。中科院库的记录则没有文摘。

3 结论和建议

    综上所述,中美两国的引文索引数据库各有特色。SCI以其权威的来源数据、广泛的覆盖范围、齐全的学科种类及良好的检索性能而成为一种面向国际科学技术领域的大型的、多功能的综合性检索工具和权威的统计分析与评价系统。中国引文索引的研究虽然起步较晚,但它成功地借鉴了SCI及其它数据库建设的经验,在近5年内取得了令人瞩目的成绩,这些引文数据库无论是在品种版本方面,还是在收录数据的范围、种类、数量以及检索技术等方面都接近于国际水平。它对国内科技界、教育界的文献检索和科学评价工作产生了非常重要的影响。中国引文索引研究所取得的这些成果,在非英语国家中尚属少见。

    当然,国内的引文数据库在数据库质量上和检索性能上与SCI相比还是有一定的差距,SCI也有一些待改进的地方。就此提出如下几点建议。

    对国内引文数据库的建议:〈1〉可否成立一个类似于ISI的机构,集中各方面的建库力量,开发一套涵盖自然科学和社会科学的引文数据库,以改变国内目前这种各自为政、重复开发的局面。〈2〉建议逐步收录适量的国外期刊和文献,以便于中国的引文数据库走向世界。〈3〉加强引文数据库的统计分析功能和对引文分析的研究,是否可以尝试把中外的引文数据库联系起来进行统计分析。〈4〉加快数据库的更新频率,加强数据的质量控制,改进著录和标引质量,提高系统的检索性能。

    SCI的建议:〈1〉调整数据源在地区、语种和学科上的分布状况,以改善其通用性。〈2〉加强数据库的质量控制,降低数据的差错率。〈3〉改进作者姓名的著录规则,建议著录全名。〈4〉降低其生产成本和销售价格,以促进其推广和使用。


参考文献

1 http://202.119.47.137

2 中国科学引文数据库课题组.中国科学引文数据库来源期刊的选择及其评价.中国科技期刊研究,1998(3)4145

3 金碧辉,汪  .中国科学引文数据库的研建及其应用.中国科技期刊研究,2000(1)1416

4   平,赵  .两种引文数据库的比较研究.中国信息导报,1999(8)3941

5 http://www.lib.pku.edu.cn/communicate/communicate.htm

6 http://pccms.pku.edu.cn:8000/gbhtm

 

欧阳轻娥 南京农业大学理学院信息管理系

侯汉清 南京农业大学理学院信息管理系