引文索引的功能与科学评价——以美国《基本科学指标》引文数据库为例(上) 邱均平马瑞敏

发布时间：2018-09-25 浏览次数:66

・各类型索引与数据库研究・

引文索引的功能与科学评价

――以美国《基本科学指标》引文数据库为例(上)

邱均平马瑞敏

(武汉大学中国科学评价研究中心武汉 430072)

摘要本文首先概述了引文索引的两个基本评价功能，即检索功能和评价功能，并论述了在实际的评价工作中如何发挥它们的功效。然后，阐述了如何利用美国基本科学指标引文数据库(ESI)来实现评价功能，最后提出了利用ESI进行世界大学科研竞争力评价的构想。

关键词 引文索引功能科学评价 ESI 大学

引文索引是利用文献之间的相互引证关系来检索文献，从引文索引中查出一批所需的文献后，再利用这些文献的引文查找一批新的文献，这样不仅能获得一定数量的相关文献，还能揭示旧文献对新文献的影响，新文献对旧文献的评价，展现新旧文献在学术研究中的关系，同时引文索引又打破了传统的学科分类界限，既能揭示某一学科的继承和发展关系，又能反映学科之间的交叉渗透的关系。因此，引文索引在文献检索、科学计量、科学评价等方面有着其他检索工具无法替代的独特作用。

1 引文索引的功能

引文索引有两种功能，情报检索功能和科学评价功能。对于一个引文索引检索工具，往往是将情报检索功能作为首要的开发重点。按照SCI的创始人加菲尔德的最早设想，SCI是一种适合于学者使用的功能卓越的检索工具，对于引文索引的学术评价功能，则是后来才被发现并广为利用的。

1.1 引文索引的检索功能

从表面看，引文索引和一般索引有共同之处，以作者、关键词、机构名称等为线索进行文献检索。但从内在联系及本质来看，文献之间相互引证的关系提供给读者一种崭新的检索途径，它和传统的检索系统有着非常大的区别。引文索引通过论文间的相互引证与被引证的关系，使论文彼此联系而构成一个论文网，它在一定程度上揭示了科学与技术的发展过程(例如某个科学报告或者理论在哪些领域得到了证实和引用；某著者过去做什么研究，现在又在从事什么研究；某一课题的来龙去脉，它的原始作者、中间作者和新近作者又有哪些等等)，同时它可以帮助研究工作者了解自己著作的被引率与持续时间，估计这些成果的影响与老化情况，使学者对自己的著作有一个动态的了解。引文索引用综合循环法不断扩大检索范围，可以查到一系列相关的文献，即从一篇较早的论文开始，寻找引用过此文的所有文章。再以此引文作为新的检索起点，寻找引用这些论文的文章，这样就像滚雪球一样，可以掌握越来越多的相关文献。如果按照传统的查找方法――分类法或标题法编排的检索工具，则要求检索者对分类体系或主题表有一个基本的了解，否则就会误检或漏检，而利用引文索引避免了这个复杂的培训和学习的过程，符合人们的检索思维和需求，非常利于普及使用。

1.2 引文索引的评价功能

引文索引的评价功能是建立在引文分析法之上的。所谓引文分析就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法，对科学期刊、论文、著者等各种分析对象的引用或被引用现象进行分析，以便揭示其数量特征和内在规律的一种文献计量研究方法。由此我们可以看出引文索引的以下四点主要的评价功能：

(1) 期刊评价。当前最主要的是利用期刊的影响因子来进行评价。

某年度某刊的影响因子＝该年引用该刊前两年论文的总次数

前两年该刊所发表论文总数

影响因子的值越大，说明该期刊的被引率越高，质量越高。现在对于影响因子的作用有着很激烈的讨论，例如由于各个学科的不同学科属性，时间间隔的选定也应有所区别等等。这就要求我们要建立一套完善的、科学的期刊评价体系，利用引文索引数据库的数据进行综合评价排序。我们可以利用以下几个参核指标来进行期刊综合评价：

期刊引文率＝该刊中参考文献总数

期刊载文量；

高频被引论文占有率＝该年度该刊前两年论文被引次数超过K次的论文数前两年该刊所发表论文总数；

K的大小由学科属性决定；

当年被引指数＝该年度对该刊当年发表论文的总引用次数

当年该刊发表论文总数

最后利用层次分析法或模糊矩阵等数字方法赋予每个指标不同的权重，从定性和定量相结合的角度较好地解决期刊评价中的一些问题。

(2) 论文评价(人才评价)。顾名思义，主要是评价某论文的质量。这在我国科研单位受到了相当高的重视，因为这不仅关系到学校的排名而且也关系到个人的职称、奖励等现实问题。现在有些高校根据论文质量对发表者进行奖励，其计算公式如下：某作者某论文的奖金数＝奖金基数×该论文所发表的期刊的影响因子(相当于一个质量系数)。当然用某期刊宏观的影响因子来评价某一论文个体的质量存在着一定问题，应该对其进行必要的更正。我们的建议是使用如下公式进行简单而又相对合理的计算：

某论文的当年质量系数＝α×β

＝当年期刊的影响因子

当年该论文归属学科的所有期刊的平均影响因子

×当年该论文的被引次数

当年期刊的影响因子

＝当年该论文的被引次数

当年该论文归属学科的所有期刊的平均影响因子，其中影响因子以两年间隔计算。

其中α用来消除影响因子的学科影响，不同学科的影响因子差别较大，这里α是一个“相对影响因子”，β用来体现论文自己真正的影响力。这样就避免了用宏观指标来评价微观个体的缺陷，同时既承认了影响因子的重要性，又结合考虑了论文自己真正的价值，用衡量期刊质量的α和衡量论文价值的β共同作用于论文的质量系数。

(3) 机构评价。现在我国从事大学评价研究的公司或研究单位，全部将SCI论文数以及被引数作为评价指标之一，这和我们对SCI的关注有密切关系。在机构评价中，引文索引更是体现了它独特的作用，这和我们对SCI的关注有密切关系。在机构评价中，引文索引更是体现了它独特的作用，将一个庞大的论文网络精确分割到每个机构名下，如果引证关系著录不清晰或不科学，可想而知我们将为研究一个机构的科研竞争能力要付出多大的努力，甚至随着时间的推移，我们根本难以理出个头绪来。

(4) 学科评价。当然我们可以从某学科的论文数及论文被引数这个基础出发，研究某学科的地区分布，机构分布，著者分布等各种分布，为科研人员和管理单位提供一些有意义的参考。在这里我们着重强调在引文索引基础上，利用同被引分析来研究学科的发展趋势以及热点问题，这对于我们的科学研究是很有意义的。所谓同被引(Co-Citation)，又称为同引、共引，是指两篇或两篇以上的文献同时被别的文献引用的现象。利用聚类分析(Hierarchical Cluster)和多维尺度分析(Multidimensional Scaling)对同被引矩阵进行数据挖掘，从而得出该学科的研究特点、研究方向的关联性以及该学科研究以及学者关注的热点问题等。可以说这是利用引文索引而进行的深加工的学科评价成果。

2 基本科学指标(ESI)引文索引评价数据库

2.1 ESI的基本情况及与SCI的区别

ESI(Essential Science Indicators)是由世界上著名的学术信息出版机构ISI(Institute ForScientific Information，美国科学情报研究所)“研究服务组”于2001年推出的衡量科学研究绩效、跟踪科学发展趋势的基本分析评价工具，是基于ISI的科学引文索引数据库Sience Citation Index(简称SCI)和Social Science Citation Index(简称SSCI)所收录的全球8，500多种学术期刊的1000多万条文献记录而建立的计量分析数据库。它通过ISI Web of Science提供服务，是ISI网络集成服务平台的一个重要组成部分。ESI从引文分析的角度，针对22个专业领域，分别对国家、研究机构、期刊、论文以及科学家进行统计分析和排序，主要指标包括：论文收录数、论文被引频次、论文篇均被引频次。用户可以从该数据库中了解在一定排名范围内的科学家、研究机构(大学)、国家(城市)和学术期刊在某一学科领域的发展和影响力，确定关键的科学发现，评估研究绩效，掌握科学发展的趋势和动向。通过ESI可以系统地、有针对性地分析国际学术文献。作为ISI Web of Knowledge的一部分，ESI为科学研究者提供了一种动态的、综合的、基于网络的研究分析环境。ESI的主要内容包括引文排位(CitationRankings)、高被引论文(MostCited Papers)以及引文分析(CitationsAnalysis)三大主要模块。其中引文排位模块包括科学家、机构(大学、企业、政府部门或学术研究机构等)、国家和期刊排名表，高被引论文模块包括高被引论文(Highly Cited Papers)和热门论文(Hot Papers)列表，引文分析模块包括基线(Baselines)和研究前沿(Research Fronts)列表。引文排序页面和高被引论文页面还提供了与顶尖论文页面、时间序列图的链接。除此三个主要模块之外，ESI还提供对其各种表格和数据进行评论的内容，包括In-Cites、特殊话题(Special Topics)、科学观察(Science Watch)。图1是ESI页面结构图，反映了其中各个页面之间的关系。

图1 ESI页面结构图

由于ESI比SCI晚诞生了整整40年，通过这四十年的摸索，ISI公司的情报专家和计算机专家提供了更加完善的数据服务，所以它的评价功能更加强大和全面，利用起来也更简捷。ESI除具有SCI的一般评价指标如论文数和论文被引数之外，它的评价范围更广，提供的服务是经过深加工的产品，不只是象SCI那样由用户自己去检索数据然后再进行数据的分析和挖掘，它本身就包含了这方面的服务。所以我们可以看出，ESI将检索功能和评价功能融合在一起，是基于检索基础上的评价结果的呈现，以评价为根本目的。

2.2 ESI的评价功能

2.2.1 ESI自身具有的评价功能

(1) 科学家评价。ESI根据十年内科学家论文被引频次的总和对科学家进行排位。ISI的引文索引数据库收录了大约300万名科学家，其中大约只有5万名被收录于ESI中，这些科学家在10年内的被引频次总数位列所有科学家的前1%。在ESI中我们可以清楚地看到，某科学家发表论文涉及的学科领域，并且在每个领域他的论文的影响力也是一目了然，包括在该领域发表论文数，被引次数，平均被引次数。以及按所有论文的总被引次数的排名。以下是Hendrickson WA这位科学家的一些情况。

我们从图2可以看出HendricksonWA在生物化学、分子生物学、微生物等领域都有较强的研究。例如他在生物化学领域总共发表了31篇论文，总被引次数为2297，平均被引次数为74.1次。但是单从图2看，我们只能够看出一个整体状况，并不知道他在该领域的一个相对的学术地位，图3的结果就弥补了图2这个不足，我们可以从图3看出，Hendrickson WA在生物化学领域的排名为605，其他数据情况和图2一致。

图2 Hendrickson WA的所有学科成果排名表

图3 Hendrickson在BIOLOGY & BIOCHEMISTRY领域内的科学家排名表

图4 经济管理学学科机构排名表

(2) 机构评价。ESI根据各机构不同学科领域十年内论文的被引频次的总和对机构进行排位。ISI收录了大约100万个研究机构组织，其中ESI选出的3000家研究机构代表了所有机构的前1%。另外需要特别注意的是这里的总数的VIEW查看选项的论文数是不一样的，其具体的区别在图3中进行了标注。

我们从图4可以看出在经济管理学这个学科，哈佛大学(HARVARD UNIVERSITY)从论文的数量和被引次数都排名第一；而从平均被引次数来看，芝加哥大学(UNIVERSITY OF CHICAGO)排名第一。

(3) 国家评价。ESI根据各国论文的被引频次的总和对国家进行排位。依据总被引频次，排位国家属于前50%范围以内。国家评价是在机构评价基础上的累加，即把某个国家的22个学科的论文数和被引数累加，平均被引＝某个国家22个学科的论文被引数/某个国家22个学科的论文数。表1是空间科学领域排行在前5位的国家名单，按论文被引数排序。

表1 空间科学学科的国家排名

排名	国家	论文数	论文被引数	论文平均被引数
1	USA(美国)	48，035	718，599	14.96
2	GERMANY(德国)	13，921	173，403	12.46
3	ENGLAND(英国)	12，123	171，193	14.12
4	FRANCE(法国)	10，934	116，652	10.67
5	ITALY(意大利)	8，680	97，407	11.22

(4) 期刊评价。ESI提供了长期的期刊引文排位。我们还可以通过查询ISI出版的《期刊引证报告》(JournalCitation Reports,JCR)与短期引文行为进行比较。依据总被引频次，排位期刊属于前50%范围以内。这个功能和SCI没有本质区别，只是选取的期刊的间隔时间不同而已，故这里不进行展开阐述。表2是农业科学领域排行在前5的期刊，按被引数排序。

表2 农业科学领域的期刊排名

排名	期刊名称 (缩写)	论文数	被引数	影响因子
1	ASTROPHYS J(天体物理学杂志)	23，417	428，691	18.31
2	ASTRON ASTROPHYS(天文学和天体物理学)	14，759	151，662	10.28
3	MON NOTIC ROY ASTRON SOC(皇家天文学会志月报)	7，701	115，089	13.23
4	ASTRON J(天文学杂志)	5，087	81，599	16.04
5	J GEOPHYS RES-SPACE PHYS(地球和空间资源物理学)	5，584	53，220	9.53

(5) 论文评价。可以说这是ESI最区别于其他评价数据库的一个闪光点。对于论文质量的评价是其他评价的基础，非常重要。ESI提供了三个评价指标可以对论文进行排序。

①高被引论文(Highly Cited Papers)。ESI根据论文的被引频次，选择靠前的1%范围内的论文形成高被引论文列表。一般地，论文的被引频次的高峰出现在论文发表后的第2-4年，某些论文则被持续引用多年。少数文献有着延迟的认知。模式上差异很大，这与论文的形式、所属领域以及所报道的发现的性质有关。ESI设定了相对特定领域与年份的不同的被引频次标准(阈值，大于阈值方可入选)，保证入选的论文在相应的领域和年份里，其被引频次属于靠前的1%范围以内。图5是某化学领域的论文的基本情况，我们可以看出它被引用了169次，并且在该领域处于918位。另外我们给出入选高被引论文的阈值，如附表1所示(见下期)。

②热门论文(Hot Papers)。热门论文指的是与相同领域与出版年的其他论文相比，出版后很快就有高被引频次的论文。热门论文的选择是基于一定的条件，即论文的发表年龄不能超过2年，而且是在当前的2个月里被引。这意味着论文必须在很近的一段时间里得到关注。每一领域及时间段都设定了入选条件，按照相应的条件，0�1%的论文得以入选。其排序情况和高被引论文是一致的，故不进行详细的论述。这里只给出热门论文的具体入选条件，如附表2所示(见下期)。

③顶尖论文(Top Papers)。顶尖论文是某一科学家、机构、国家以及期刊在特定领域和年限中的被引频次排名在前1%的论文。顶尖论文与前面所分析的高被引论文阈值大致相同，两者的差异主要在于，顶尖论文必须为进入各领域排行的机构才列入计算，即无法进入某领域排行的机构，便不是该领域的顶尖论文，明确以上区别后，其具体情况可以参见图4的标注。

图5 某化学领域的高被引论文的基本情况

(6) 学科评价。在这里主要介绍ESI的特色服务-研究前沿(Research Fronts)。在前面我们提及利用同被引分析来进行学科发展动态的预测，但是这需要我们自己去搜集数据，然后利用象SPSS之类的统计软件去实现聚类和多维尺度分析。整个研究过程是比较复杂的。ESI的研究人员在这方面进行了较好的研究，提供了深加工的服务。研究前沿是一组由高频被引核心文献和近期引证这些核心文献的论文所确定的自然科学和社会科学的专业领域，核心文献代表了一系列当代引证文献所依赖的研究主题的基础文献，研究前沿根据结合的SCI和SSCI数据库每年更新一次，目前已建立1994-2005年各年的研究前沿文件。每个研究前沿文件的统计指标有：显示研究前沿学科动向和主题的一系列主题词；组成该研究前沿的高频被引核心文献和近期引证这些核心文献的论文数量；这组论文被引总次数；平均被引频次；平均出版年份。通过研究前沿可以追踪和推测学科或专业的发展动向和趋势。从表3我们可以看出在空间科学这个领域的研究前沿。

表3 空间科学的研究前沿论文

排名	前沿论文相关主题(从同被引论文的主题中抽取)	论文数	被引数	平均被引数
1	COSMOLOGICAL SCALING SOLUTIONS；COSMOLOGICAL TRACKING SOLUTIONS；COSMOLOGICAL CONSTANT；COSMIC MICROWAVE BACKGROUND RADIATION；COSMIC MICROWAVE BACKGROUND ANISOTROPIES(主要集中在宇宙的微波和跟踪方案的解决方面)	31	6，420	207.10
2	CHANDRA DEEP FIELD NORTH SURVEY；1 MS CHANDRA DEEP FIELD NORTH SOURCES；CHANDRA DEEP FIELD SOUTH；CHANDRA DEEP SURVEY；HUBBLE DEEP FIELD NORTH AREA(主要集中在钱卓拉深场影象的调查和研究方面)	49	4，765	97.24
3	POSITIVE MUON ANOMALOUS MAGNETIC MONENT；MUON ANOMALOUS MAGNETIC DIPOLE MOMENT；ANOMALOUS ANOMALOUS MAGNETIC MOMENT；MUON G-2；LIGEST MSSM HIGGS BOSON(主要集中在异常磁矩的研究方面)	43	2，831	65.84

(未完待续)