试论引文计量的不确定性 ――兼论引文计量的规范管理罗宇辉侯汉清

发布时间：2018-09-25 浏览次数:9

试论引文计量的不确定性

――兼论引文计量的规范管理

罗宇辉¹侯汉清²

（¹南京农业大学工学院图书馆210031）（²南京农业大学信息科技学院210095）

摘要引文分析数据的广泛应用于科学评价，使科技论文引文计量的缺陷开始逐渐显露出来。本文对引文计量的特点及其自身存在的不确定性进行了分析和阐述，并针对其不确定性及目前滥用引文计量的混乱情况，提出对引文计量范围、计量方法及评价机构、评价系统的规范管理的建议。

关键词 引文计量引文分析引文计量管理科学评价

近年来用引文数据来评估科研机构和科研工作者个人的科研质量与水平的做法，在世界不少国家日趋风行。从1961年加菲尔德始创《科学引文索引》（SCI），引文分析法逐渐以其特有的客观性、易用性，广泛地应用于期刊、机构或个人的科研水平的评价。但是，近年来关于引文分析作为科学评价测度方法的争议也越来越激烈，滥用引文计量方法的混乱开始显现出来。在当前引文计量过热的形势下，本文拟着力阐述引文计量本身存在的不确定性，进而对引文计量的规范管理进行初步的探索。

1 引文计量过热之表现

科学领域既需要研究成果，也需要对研究成果进行评价与继承。在评价科学成果与科学家时，最常用也最直观的办法就是借用科学计量学的工具和手段，进行量化指标研究和排序。美国著名情报学家尤金・加菲尔德认为引文是学者付给同行的硬币工资［1］，引文测试能把一些有用的、客观的因素引入到评价过程中，而只涉及少量的使用技术的费用，是一种有效的同行专家评议方式［2］248。叶继元也认为引文索引可以帮助确定知识或科学的结构，反映学科之间的渗透情况，可以从一个重要侧面评价被引用论文、刊载被引论文期刊以及学者、学者群体的影响程度和水平［3］。因此，引文计量便成了科技评价的一把尺子，用于衡量大到一个国家、一所高校，小到一种期刊、一位作者的科研水平与学术贡献。但在将引文计量作为科技评价手段发展到今天的过程中，由于错用、滥用这一手段，产生了引文过热现象。如我国将SCI引入中国科研与大学评价，产生了基于SCI的中国大学排行榜。而某些高校为提高自身排名，以人为作弊手段提升SCI收文数量；我们以引文分析法遴选核心期刊，以核心期刊作为某一学科或专业的方向和代表。而如今，核心期刊的性质已由最初的导购、导读工具变异为一种以刊评文、以刊评人、以刊评校等的科技评价工具［4］；机构以发表SCI、SSCI、EI、CSSCI等收录文献的数量以及核心期刊文献数量，作为评价个人或部门科研水平的硬指标，从而产生这一种机械而片面的评价方式；我们以单纯的引用频次来判断文献或期刊或个人的科研价值，于是开始有人为地提高自身或有关系他人的科研地位，使得自引、他引、互引等伪引文遍地都是。

可见，引文计量用于科技评价因其自身的特点而具有相对的优势，但当将其做为主要的，甚至唯一的评价手段时，其内在的不确定性则毫无保留地显露出来。

2 引文计量的特点

2.1 简单性、可操作性

引文计量的简单性体现在可以通过大型引文数据库快捷、直观地获得相应的引用数据，如哪些著者的哪些文献的被引用频次高；哪些期刊被哪些期刊引用，被引的频次有多少等。这些数据也就是我们做为引文评议的基础。但是，这些数据可以被人为地操控，如通过自引提高个人文献引用频次，通过期刊与期刊之间协议互引提高期刊的他引频次等。有些期刊甚至在收录和编辑论文时故意进行上述引文作假。这也是引文计量的简单性和可操作性带来的负面特性。

2.2 客观性与不可靠性

引文分析提供的数据基本都是客观可靠的引证数据，这也是行内利用引证数据来进行各项评价的基本前提。但是这也为引证数据的不可靠性埋下了隐患，若有人有意人为地提高某个人或某单位或某期刊的业内排名，则可利用引文计量的客观可靠性作为幌子，通过大量自引、虚引、伪引来提高引用频次，这便产生了引文计量的不可靠性。

2.3 准确性

引证数据如来自客观地引用统计，是客观定量的数据，一般具有准确性的特点。但是，由于文献著录及建库中的差错，会产生一人、一刊或一机构使用不同名称，不同人、不同刊、不同机构可能会使用相同名称，这样产生的引文数据就包含了不准确因素。

3 引文计量的不确定性

一般来说，以发表论著数、被引频次、影响因子、即年指标、期刊影响广度、地域分布、半衰期等多种指标进行的形式评价，是简单、粗糙的［5］，而引文评价以这些数据为依据，便具有不确定性和可操控性因素，主要表现在以下几个方面：

3.1 引用本身的多样性造成的不确定性

引文数据在科技评价中的应用开始于最简单的测度――被引频次。对科研工作者、科技论文、科技期刊、科研项目等所作的贡献及其影响力进行某些客观测度的明显需要，构成被引频次应用的基础［2］58。被引频次确实也能反映科学家对于某一文献重要性的认可。但是，被引频次在本质上是不易把握的，从而造成引文计量的不确定性。下面从引用的几种方式分别论述：

3.1.1 自引与他引

自引包含正常的学术继承性引用，也可能包含刻意提高个人被引频次的引用。加菲尔德曾经对于自引也有过这样的评价：一个人的被引频次可以由于自引而被夸大［2］53。也就是说，如果个人想提高自己文献的引用频次，可以通过有意自引的方式来完成。他引是指引用他人的文献，通常是正常学术关联性及继承性引用，但也可以是友情引用、随意引用以及有意吹捧或作弊性引用。引文数据只是提供客观数据，无法分辩不同的引用意图和类型，因此造成了引文计量的不确定性。

3.1.2 正常引文与非正常引文

正常引文是指是有学术关联与承继的相关引用的引文；非正常引文指一些不是正当学术关联或承继关系，而是在某些经济利益或协议条约的趋使下，纯粹以提高引用频次为目的引用关系，是虚引、伪引。这种引证关系不应该被统计入被引频次的计算中，但单从引文数据的表面是不能分辩引文的内在意图与性质，从而也导致引文计量的不确定性的增加。

3.1.3 正面引用与负面引用

正面引用是指被引证的文献因为其研究或成果受到公认和肯定而被多次引用，这种性质的引用是对被引证文献内容的正面认可，在对引文进行计量评价时这种引用关系应该被计算。而负面引用是指被引证文献因为受到批判驳斥或作为反面典型事例而得到频频引用，那么这种负面引用是对被引用文献的否定，一般不应被计入引文评价的有效引用数据。当然在科技史上也有一些正确的学说或观点在草创之时，受到一些不公正地批判和指责。这些都增加了引文计量的不确定性和复杂性。

3.2 JCR计量标准的不一致造成的不确定性

3.2.1 来源期刊数量及范围的差异

目前直接用于科技评价的工具是JCR，即期刊引证报告， 1975年JCR开始由美国科学信息研究所（ISI）编辑出版。这是在《科学引文索引》及《社会科学引文索引》（SSCI）基础上对科学期刊定量评价的一个重要应用［6］2。目前几乎每一种引文计量工具都定时发布JCR。国内的JCR主要有：中国科学技术信息研究所《中国科技期刊引证报告》，清华大学中国学术期刊出版社《中国学术期刊综合引证报告》，中国科学院文献情报中心《中国科学计量指标：论文与引文统计》，南京大学中国社会科技评价中心《中国社会科学研究计量指标》。现将各JCR的来源期刊数量、类目数和每个类目平均收录期刊数做一比较：

表1 国内几种JCR收录期刊情况的比较

	中情所JCR	清华JCR	中科院JCR	南大JCR
来源期刊数量	1765	6631	664	680
类目数	55	260	12	25
每个类目平均期刊数	32	25	55	27

（注：除中科院JCR引用的2004年版本数据外，其余均引用2008年版本数据）

表1表明，国内几种JCR的来源期刊数量相差较大，同时期刊质量也良莠不齐。这便造成了评价标准的不统一，进而造成来源文献数、期刊被引总频次、期刊影响因子、期刊排名等诸多方面的差异。这也大大增加了引文计量的不确定性。

目前国内不同引文计量机构出版的JCR其分类体系与类目下期刊的数量均不相同，如表1所示。清华JCR将所有来源期刊分为260个类目，如果每个类分别取排名前10名的期刊，总数可达2600种，已经超过总期刊数的一半。可见，清华JCR拟定的“以类相聚，同级相比”的分类办法是不合理的，期刊引证报告的排名应该是通过计量和分类找出本学科最优秀的、最有影响力的期刊，而不是给每种期刊一个好的排名［6］7。

再看每个类目平均收录的期刊数，中科院JCR最少，仅有25种，而清华JCR则有55种，因此，同一种期刊，在中科院JCR中，其评价结果是在25种期刊比较中得到的结果，而在清华JCR中，其评价结果则是在55种期刊中比较得到的。或者，可能在不同的JCR中，同一种期刊是划到了不同的类目中，因此分类排名评价的不确定性就更大了。

实际上，由于期刊分类的差异性和复杂性，使得期刊排名在不同学科间无法进行，就是在同一学科里由于分支学科设置的复杂性和期刊内容的复杂性，也很难用一个统一的计量标准进行排序。同属于图书馆学情报学类的数字图书馆刊物与目录学刊物、古籍整理刊物，能够用一个计量标准来排定其刊物的水平和影响力吗？

3.2.2 影响因子无差别地应用于所有期刊

学术期刊影响因子的测定及期刊评价是引文分析的一项重要应用。普赖斯提出，科学论文一般在其发表1-2年后，被人们了解接受，并达到被引证的峰值阶段。加菲尔德这样定义：某刊前两年发表论文在该年的被引证次数与该刊前两年发表论文总数之比，则为某刊的影响因子［7］。通常影响因子越大，可以认为该刊在科学发展和文献交流过程中的作用和影响力较大，便可认为其质量较高。这也是我们目前用以遴选核心期刊和评价科学期刊的重要测度指标。

然而，实际上影响因子的应用范围和采集方式均有一定的局限，不能不分学科、不问具体情况地用一把通用的尺子去评测一切学术期刊及论文的水平［8］。各学科的特征与发展趋势不同，其科学论文在发表后的第几年达到引用峰值也因学科而异。基本大部分学科在是其发表两年时间内达到引用最大值，但也有些学科其引用峰值是在其论文发表后更长时间才达到引证峰值，这个时间社会科学、自然科学、技术科学就不会一样，即使在社会科学领域的同一个大学科里，不同的小学科（诸如，信息计量学与图书馆学、目录学、版本学）也会有较大的差异。

因此，在用影响因子进行期刊评价时，忽视影响因子的学科差异性，其结果势必失去科学性和公正性，影响科技评价的客观准确性。

3.3 引文收录范围差异造成的不确定性

引文的常见类型有：期刊论文、图书、会议论文、学位论文等，不常见的还有专利、古籍、报纸、网页等。目前国内对引文计量时，有的评价机构只计算前面常见类型的数量，对于一些不常见的引文就不计入引文范围；有的评价机构则全部计入。因此，对引文类型与范围没有统一规定，也使引文计量的不确定性增加。

3.4 期刊本身的差异造成的不确定性

不同期刊其引文习惯及引文编辑方法不尽相同。在格式上，有的期刊要求参考文献多而全，大大小小的引用要全部列入参考文献。而有些期刊为了节省篇幅，只刊登著者引用的部分参考文献，造成不同期刊引文数量的极大差异，从而影响计量结果的确定性。

有些社会科学期刊往往把一部分引文写入文中或页末的注释（注文）之中。引文计量时，有些机构只统计文末参考文献中的引文数，不统计文中注或页末注中包含的引文数。这也造成引文计量的差异或不确定性。

由于引文计量的诸多不确定性，就会在引文计量管理以及科学评价中造成“差之毫厘，失之千里”的错误；就会给一些行为不端的人作假引文数据造成一些可以利用的漏洞。

4 加强对引文计量管理的一些思考

目前，引文计量的“尺子”出现了问题，怎么办？显然，我们不能抛弃这把“尺子”，应当加强引文计量的规范和管理，现在提出以下一些建议。

4.1 对评价机构进行管理

目前国内进行科技评价的机构与部门，数量不少，其等级与资质也良莠不齐。各评价单位所纳入的评价对象不完全一致，其评价标准及评价方法也均不相同。虽然基本都是依托引文数据，但其产生的评价结果也是不尽相同的。这些评价结果对高校的评价及排名影响到数百万考生，影响到学校的发展，同时对科技期刊的评价和排名影响到数以千计的期刊的生存和发展，因此，对评价机构的规范管理就显得尤为重要。

为提高评价的公信力与权威性，首先应该对评价机构的合法性进行界定，评价机构不能又是“运动员”又是“裁判员”，而应是具有公信力的、独立的机构。其次应该对所有评价机构进行资质评估，评估合格的单位才能拥有发布评价结果及报告的资格。同时，对其产生的各种评价报告及有关信息应进行有效管理，杜绝虚假的数据和低质量、纯商业操作性的评估报告，一旦发现作伪，应予以严肃处理和查办。

4.2 对评价系统的管理

除了应对引文管理机构进行规范和管理外，对引文评价系统（即管理系统）也应当加强管理。引文管理系统作为对引文数据进行存储、加工处理并产生评价结果的一项工具，其系统的稳定性和可靠性首先应该得到保障。更重要的是，评价系统运行前，必须经过一定级别的鉴定和一段时间的试用，评价数据必须公开、客观，允许用户自由使用并进行监督。只有评价系统及系统中的各项数据对于用户与被评价对象是透明的，其公正性及公平性才能得到体现。

4.3 对计量范围的管理

为提高引文计量的可靠性，引文计量还应该对计量范围进行管理。

第一，对收录范围及数量进行规范，收录的来源期刊要有大致统一的标准。如今各种JCR其来源期刊在数量上相差很大。从《清华引证报告》的6631种，到《中科院引证报告》的664种,数量相差悬殊，其报告产生的排名情况必然不具有可比性。因此对来源期刊的级别进行规范，尽量提高收录期刊的质量，对于质量低、学术性差、引文杂乱的期刊应当将其排斥在引文计量的来源期刊之外；同时数量上也尽可能缩小差距。

第二，对引文类型的范围也应进行规范，哪些类型的文献算作引文，哪些类型的文献不算作引文，注释中的引文是否收录，以及引文的收录方法，各评价机构要有基本统一且明确的规定。

4.4 对计量方法的管理

对引用计次的标准及办法进行规范，消除引文计量做法上的差异。对于一些特殊情形的引用（如同篇文献被一篇文献引用多次，合著文献的引用，同题的一组文章等），也应统一规范计算引用次数的方法，使评价在同一标准下开展。

5 结语

引文数据应用于科技评价，虽然有其简单性、客观性等优点，但如果被过度使用或不正确使用，其自身所隐含的不确定性因素将会逐渐显现，在很大程度上影响评价结果，导致评价的失真或失败。《科学时报》曾于2008年发表评论文章，题为《科技评价不能过度依赖引文数据》，其中有这样一句：“评价方法必须切合实际，引文统计数据只能成为评价中一部分。他们警告，对研究质量而言，引文数据只能提供有限和不完整的观点”［9］。加菲尔德也在上世纪70年代前后，在人们用引文分析去测试某些科研人员、科研机构越来越狂热时，曾经指出：“盲目地做出被引频次最多的著者就该得诺贝尔奖的结论是荒谬可笑的”，“被引频次作为一种解释性的工具却是确定的，它要求对使用这些数据的人们做出周全而精微的判断。”［2］248可见，对于科技评价，我们应该参考引文计量的结果，但是不能将其作为最后的评价结果。归根结底，科技评价应由同行评议来完成，科学计量学提供的包括SCI、SSCI、A&HCI、ESI、EI等在内的评价指标与数据，充其量是为科学同行提供更充分的信息［10］。

因此，引文计量仅应作为科技评价的一种辅助手段。当前，引文计量被滥用，其作用被抬高到不恰当的程度，产生很多负面效应，因此，只有加强对引文计量的规范和管理，正确且恰如其分地使用引文数据，才能充分发挥引文计量作为科技评价手段的优势和长处。

参考文献

1 尤金・加菲尔德著；候汉清译.引文索引的理论与应用［J］ . 中国索引，2004，2（1）：7

2 尤金・加菲尔德著；侯汉清等译. 引文索引法的理论及应用［M］.北京:北京图书馆出版社:2004.8

3 叶继元.引文法既是定量又是定性的评价法［J］.图书馆，2005（1）：43-45

4 尹培丽，侯汉清.核心期刊的异化及治理［J］.图书馆理论与实践，2009（11）：31-33

5 叶继元.人文社会科学评价体系探讨［J］.南京大学学报（哲学.人文科学.社会科学），2010（1）：1-14

6 邱晶晶.期刊引证报告分类体系的比较研究［D］.南京农业大学信息管理系，2007

7 邱均平主编.信息计量学［M］，武汉大学出版社：2007：379

8 魏彬，侯汉清.社会科学期刊影响因子的“影响因子”［J］.南京农业大学学报（社会科学版），2002.2(2)：81-87

9 王丹红.科技评价不能过度依赖引文数据.［2009-11-22］浙江大学求是新闻网. http://www.zju.edu.cn/zdxw/new/news.php?id=23510

10 蒋国华. 序言.载：基于ESI的科学影响力分析(党亚茹著)［M］.科学技术文献出版社，2008.5

罗宇辉 南京农业大学工学院图书馆助理馆员。

侯汉清 南京农业大学信息科技学院教授，中国索引学会副理事长。