第十章 有关科学家的引文分析
用引文分析去测度、表示科学的绩效,引起了很大的争议[1-10]。当人们用引文分析去测评科研人员、个人或者是团体(如学术机构的院系),争议会变得越来越激烈,这不足为奇。对于利用引文分析去确定科学发展的历史,或者去测度科学各专业的活动及其交互作用的报刊文章,在整个科技界引起的争议相对少一些。与此相反,任何有关用引文分析去测评特定的个人或团体的绩效的论述,都会自动招来激烈的、情绪化的唇枪舌剑,甚至一些以前讨论其他问题时缄默不语的人们也会加入到这场争论的行列之中。1975年《科学》杂志上的一篇有关探索引文分析应用于科学行政管理的综述[11],就是一个案例。这篇论文讨论了用引文测度、确定和观察科学专业结构的变化。引文分析的这种应用对科学政策的发展产生了重要的影响。但是,大批读者来信涌向该杂志编辑部,批评只是集中在使用引文统计数据去帮助测评个人或学术部门,用于确定他们的任用、提升和获奖。
对于来自科学界的有关这些应用的评论文章几乎都是批评性的,这并不令人感到吃惊。毕竟科学家对绩效测度的敏感,比其他人一点也不差。当你考虑有近25%的已发表的科学论文没有被引用过一次[12],被引论文的年平均被引频次只有1.7次[13],你就不难理解,为什么引文统计对有些人来说,可能似乎是一种特别的、令人生畏的测度。另一原因有可能是这是一个相对较新的测度手段。当A&HCI渐渐出名以后,如果把人文科学学者的反应[14]与科学家的反应做一个比较,将会是很有趣的。对于人文科学学者而言,被引用已是一种肯定,所以有理由相信人文学者会比较接受引文测度。
十分有趣的是,来自专门研究科学如何起作用以及如何能够有效地对科学进行测度的科学史专家和科学社会学家方面的意见,就温和得多。他们对引文测度的一般态度由难分伯仲的两个方面构成,一方面是健康的怀疑论(他们知道定量测度科学的绩效是非常困难的);另一方面是科学的客观论,即科学需要接受在适当指导下的研究工作所取得的实实在在的发现。事实上,来自科学界某些方面的批评可以在一个长长的研究论文的清单上找到[15-21]。正是这个清单表明引文统计与同行专家评议具有非常密切的相关性,而同行专家评议正是一种被人们广泛接受的、对科学绩效划分等级的有效方式。
尽管有大量证据支持使用引文测度去帮助评价科学家或科学团体,然而没有理由忽略对其实践的批评。讨论和争议有助于人们增进对这一问题的了解,目前大量需要的正是引文测度与哪些事情相关。虽然我已经多次详细地答复过对引文测度的主要批评,这种答复分散刊登在数以百计的论文、研究报告和致编辑部的信中。正像我在这里打算做的那样,把上述答复的所有要点集中在一本书之中,将会有助于实现增进及拓宽对引文测度方法了解的最终目标,这种测度方法对于科学实际运行的方式,可能是非常重要的。
继续和加强对这一问题讨论的另一个重要理由,是各种批评意见均已公诸于世。大多数批评意见是因为用引文分析技术去评价科学家个人时,或者存在着理论方面的问题,或者存在着实际方面的问题。引文统计是一个微妙的东西。谁用引文统计在不同层次、尤其是在个人的层次上评价研究工作的绩效,谁就必须了解引文统计的微妙性和局限性。倡导利用引文统计去评价科学家个人时,不要以为这件事非常简单,甚至连笨人也会干。事实上是会遇到与它有关的一些问题,可以用一些合理的方法,做一些解释工作,从而满意地得到解决。换句话说,对于人们用引文统计去发展一种对个人或团体绩效进行公正、客观和有用的测度来说,没有任何一种批评的理由会成为不可逾越的障碍,这正是我现在想要去论证的。
引文统计能否准确?
反对使用引文统计去评价个人或团体,是基于引文统计存在着两种人们已察觉的弱点。其一,人们必须用一种机械的方法对引文统计进行编辑加工;其二是引文统计的内在特性。机械方法的缺点来自SCI和SSCI这两种最常用引文统计数据源的特点,它们可以影响个人被引频次的准确性。
其中一个特点是SCI和SSCI的引证索引只按第一著者列出被引著作。如果你通过引证索引检索某一科学家的被引著作,你将会发现只有该科学家作为第一著者时的著作。这样,该引文统计将不反映该科学家作为第二著者时的著作。这一特点显然可以影响一些科学家的被引频次的准确性。
这种不准确性在多大程度上损害相关的引文测度,是一件引起很大争议的事情[22]。由J.R.Cole和S.Cole进行的一项研究表明,第二著者出版物引文的省略“不会影响结论的真实性”[23]。但是,此项研究仅仅限于物理学。
Lindsey和G.W.Brown对此则持相反的意见。他们从理论上进行分析,如果第一著者的论文是某一著者出版物记录的独一无二的子集,合著者排列的次序是基于贡献的大小[24],这句话成立的话,那么只对第一著者论文的引文进行分析将会造成测度错误。这种错误的严重性,将取决于第一著者论文代表其全部论文随机抽样的程度。
R.Roy进行的研究[25]表明,如果比较的范围是在一个较小的、同样性质的单位之中或单位之间,例如在院系的教师中,就不会存在上述问题。他们推断,包括第一著者以及第二著者论文的引文统计要就是大致相同的,要就是在相同性质的单位或人员之间,偏差会是一个常数。Roy拟出下列计算被引总频次的公式:
CT=CF×TP/FP
其中:CT=被引频次
CF=第一著者的被引频次
TP=论文总数
FP=第一著者论文数
如果Roy的假设成立,为了获取总的被引频次而费力地去获取、编辑第二著者论文的被引频次,则往往是不必要的。使用一个书目去获取已发表论文的总数,就有可能仅仅从第一著者的数据中计算出总被引频次。为了验证这一公式,Roy使用这个公式根据第一著者数据的汇编资料,计算两个系的教师的被引总频次。这样计算出来的数据和经过编辑第一、第二著者论文得出的数据之间的相关系数,材料科学系教师为0.98;物理系教师为0.94。尽管如此,仍需要更大量的数据去验证这个公式的准确性。
另外一个不确定的因素,是由不同学科或专业领域多著者论文的不均衡发生率造成的。虽然朝着合作研究和多著者论文发展的趋势仍很强劲[26],但是D.Lindsey和G.W.Brown的研究表明,多著者论文在经济学、社会工作、社会学领域已发表的论文样本中仅占17~25%,但是在老年学、精神病学、心理学和生物化学领域所占比例竟高达47~81%。
ISI进行的初步分层研究表明,在引文统计中不加入第二著者论文,在被引科学家的顶层将会导致重大的差错。从仅收录第一著者论文的被引频次汇编资料中得出其中被引频次最高的250位科学家的一份名单。这份名单仅有28%的科学家姓名与另一份类似的、收录全部著者论文的引文统计资料的名单相重复[22]。进一步的研究正在进行,以确定在整个被引科学家的范围里发生错误的程度。
只要这种不确定性仍然存在,收集相关引文统计数据唯一公正的方式,是汇编全部已经收进综合性书目的已发表论文的被引频次。ISI进行过这样的研究,它们要求采用标准的做法,即用计算机汇编数据,1978年曾用同样的方法对各个层次都进行了研究。
显然,可以在小规模研究中进行同样的试验,其中采用的数据是由研究者自己汇编。如果不能找到有关的书目,则可以用SCI、SSCI的来源索引,编制一个可以显示出某一特定时期内来源索引收录期刊的全部著者的全部论文的书目。由于来源索引收录的范围并不是穷尽的,这种方法要承担一些收录不完整所造成的风险。这是一个方面。另一方面,因为SCI、SSCI收录了所有的被引频次较高的期刊,所以如果漏收一篇期刊论文,这篇论文被引频次很高的可能性就会比较小。不过,一篇经常被引的论文将会发表在一个被引频次较低的期刊上,是经常可能的。汇编某些研究者的被引频次数据最彻底的方式,是采用一个已知收录非常齐全的书目。
用于比较目的的引文分析应当考虑到合著现象对写作产出率的影响。普赖斯和Reaver[27]发现,在一个有关科学家的样本中,单独发表或只有一个合著者的科学家5年之中写作4篇论文。与此相反,在同一时期内与12个以上的合著者共同研究的科学家却生产了至少14篇论文。这种潜在的影响可以根据不同情况、用不同方式予以处理。有时,计算一下每篇论文的平均被引频次就足够了,并以此作为比较的基础。D.Lindsey和G.W.Brown建议采用一种在所有的著者、包括合著者中平均分配某一论文被引频次的方法[24]。如果这些著者及其著作为进行评价的人所熟知,在对某一论文的合著者做出的相应贡献进行主观评价的基础上,对被引频次进行分配打分是可能的。
SCI、SSCI第二个能够影响科学家个人被引频次的特性,是区分两个或两个以上的同名同姓不同人的同形异义的问题。例如,R.A.Fisher被识别为一位著名的理论统计学专家以及一位不太知名的物理学家。在过去10年的任何年度的SCI中,都会在这个姓名下同时列出一串被引的统计学家和物理学家的论文。
解决这个问题有两个办法。这取决于正在进行测评研究的规模。如果研究只涉及到少数几个人,而且可以从书本式索引中汇编他们的被引频次,往往可以通过核查发表被引论文和引用论文的期刊名称,来区分同姓名的不同研究者。例如,1974年SCI的引证索引在J.Cohen的名下列举了137篇被引的论文,但是检查一下被引期刊和来源期刊的刊名,可以清楚地识别出8个人,他们是:心理学家、外科医生、物理学家、化学家、眼科医生、妇科医生、数学家或生物统计学家。
解决此问题的第二个办法也很简单,即消除只对第一著者打分的统计方法带来的错误,也就是采用一份包括全部被测评著者的完整书目。这种方法经常用于一些大型测评研究,足以证明对SCI、SSCI数据库的计算机分析是正确的。当然,进行小规模测评分析的研究者不能采用这种方法是没有道理的。这种方法可以避免在刊名与研究领域相匹配时带来麻烦和消除在这种操作中产生差错和模糊不清的可能性。
引文统计究竟测度什么?
其他一些批评引文分析的理由都与引文统计的内在特性有关,据说这些特性会使引文分析失去效果。其中有些特性与引文统计究竟测度什么有关;其他一些特性则与引文统计究竟不测度什么有关?
一些人认为引文统计测度多而无效,往往会讲到否定性引文、自引和对于方法性论文的引用。前两种情况提出了一个似乎是理论问题,而不是一个实际问题。例如,出版一种遭到众多非议的低水平著作,从理论上说来可能会产生高被引用数据,但是科学家们自愿卷入这种麻烦去批驳这种差劲的著作的情况是非常罕见的。两个科学社会学家曾经评论过这种情况。G.M.Carter[21]提出,“因为批评、否定而形成的被引用是非常少的,而且这种情况不可能影响作为研究成果测度的被引频次数的正确使用。A.J.Meadows[28]更加清晰地分析了这种情况:“非常惊奇,尽管科学界承认需要有组织的质疑,但是科学界一般不会煞费周章地离开自身的科研工作,对那些谬误的成果评头品足。如果那些谬误的成果成为某一课题发展的障碍,或者与其他科学家的工作起冲突,则有必要对其发动一场正面的批判。在其他情况下,一般都不会花费很多时间和精力去批评那些谬误百出的东西,会让其随着时间的流逝而消失”。
这些观察使否定性引文问题平添了一些微妙之处。如果科学家往往忽略那些不重要的、质差一等的作品,那么他们不厌其烦批评的作品都必定具有某些实质性内容。那么为什么把否定性引文看成是一种有损声誉的事情呢?批评和交流是科技出版过程的基本功能之一。许多新的理论和重要发现在问世时往往遭到人们的非议。批评总是正确的看法,似乎是一种主观臆断。批评恰恰有可能是错误的。诺贝尔奖金获得者早期发表的论文,其中有相当数量曾被有关学科领域的主要期刊拒绝刊出。即使当某一篇论文被人批评为谬误时,误解消除了,科学著作的贡献岂不也就被确立起来了吗?对那些因有重大的错误而遭到正式批评的著作,岂不是起着澄清、聚焦和促进等建设性作用?
否定性引文是否会使引文统计在测度个人业绩方面失效?这个问题提出了一个更加基本的问题,即引文统计究竟测度科技绩效的哪些方面?如果被引频次被看成是一种对个人肯定次数的精确测度,那么否定性引文势必被看成是一种不能接受的怪胎。但是引文统计不是上述那种测度。它们是一种个人对科学的贡献水平的非常一般的测度。由于科学家往往不拘小节,否定性引文似乎是表明肯定科技绩效的相当抽象的方面。
自引的合法性是一个较为简单的问题。从理论上讲,自引是一种操纵被引频次的一种方式。另一方面,自己引用自己的文献的做法又是既普遍又合理的。如果把自引定义为科学家引用自己作为第一著者的著作,自引至少占了全部引文的10%。如果把科学家引用自己作为第二著者或合著者的著作也定义为自引,自引所占的百分比无疑会高得多。由于科学家往往在自己或合著者工作的基础上进一步开展研究,所以高频率的自引数多半表明这是一个狭窄的专业。
利用自引来膨胀被引频次通常比较困难的原因在于,既要这样做,又要做得不太明显,是不容易的。一个人想这样做,必须要非常频繁地发表论文,以达到显山显水的目的。假定审查系统限制在著名刊物上发表科学论文,那么只有这位研究者有很多比较重要的研究成果可以写出来,他才有可能达到高指标的发表论文数。否则,他就不得不到一些名声不大的刊物上去发表论文。在二流刊物上发表论文的长长书目,加上一个不正常的高频率的自引数,两者结合起来,做得如此露骨,这种做法将会搬起石头砸自己的脚。
值得引起注意的第三个批评是一些方法性论文的高被引频次。许多科学家感到,方法的进展不如理论的进展重要。一些科学家由此得出结论:被引频次不能看成是一种有效的测度,因为被引频次尤为青睐那些设计研究方法的论文,而不是看重那些把研究成果上升为理论的论文。
上述结论忽略了几点。最明显的一点是,方法天生就不如理论重要的判断,很难说是正确的。有时候可能是这样,但是谁也不能否认,有些方法和工具,开辟了研究工作的新的领域。这样的方法是否不如具有同样影响的理论重要,这个问题已成为一个辩论的经典主题,但是决不是一个科学真理。关于方法与理论之间的交互作用的情况及论述可以查看“经典引文”(Citation Classics),这是《近期目次》上刊登的一些高引论文著者论述的论坛,每周一期,由方法研究论文的著者讨论他们的论文对理论和实践的影响,以及其他有关的问题。
另外,较少引起争议、但被人们忽略的一点,是方法性论文并不一定会招来一大堆引文。数以千计的方法性论文无人引用。如果你查看一下用某一特定时期SCI数据编成的化学文献中的100篇高被引论文,将会发现大约有73%不是主要关于试验方法的论文[29]。有些方法性论文确实是高被引论文,而大多数方法性论文肯定不是高被引论文。这种情况将随着学科领域的不同方向而变化。在一个主要面向方法论的领域,如分析化学,方法性论文往往是高被引的。但是,在一些没有特别强烈的方法性色彩的领域,方法性论文与理论性论文相比,高被引频次只是少数的例外。
被人忽略的最微妙的一点,是以前提出过的关于引文统计测度的质量问题。人们把引文统计说成是一处对科技工作“重要性”或“影响力”的测度。但是知识渊博、功底较深的科学家往往是在一种非常实用的意义上使用“重要性”、“影响力”这一类词,即他们所讲的实际上是指其效用。高被引论文(或著作)是一种被相对说来为数众多的人们、或为数众多的试验发现的一种有用的论文。这正是为什么一些方法性论文往往被高引的原因。它们描述了那些被广泛而频繁使用的方法。O.H.Lowry1951年关于蛋白质测定的论文是一个经典的实例。它在1961年至1975年期间被引50000次,它的被引频次比排在高引论文第二位的论文多了5倍。对于Lowry的工作,他自己说他提出的方法只是比其他的方法稍微强一些、简易一些或者灵敏一些,当然现在几乎每个人都要测定蛋白质[30]。
保守地说,某一项科研论文的被引频次高并不一定表明它是第一流的,或者表明它对于科学或社会进步的相对重要性。Lowry关于蛋白质测定论文的被引频次远远高于爱因斯坦统一场论的论文,但是这一事实肯定不能表明Lowry的贡献大于爱因斯坦,只不过表明关心蛋白质测定的科学家要多于研究统一场论的科学家。在某种意义上说,引文统计是对科学活动的测度。
在把引文统计看作为一种评价科学家个人的工具时,唯一认真负责的看法是引文统计提供了对科学工作的效用或影响的一种测度。它们说明不了科学工作的性质、科学工作效用或影响的原因。这些因素只能通过对被引材料的内容分析或同行专家评价,才能够探究清楚。引文分析决不意味着可以代替这些分析判断,只是使这些分析判断更加客观、更加敏锐而已。
引文统计究竟不能测度什么?
有一派批评关心引文统计测度什么,另一派批评则关心引文统计不能测度什么。引文统计在识别尚未成熟的发现方面(指一些非常重要的科研走得太超前,以致于不被人注意)的无能为力,成为了后一派怀疑引文统计有效性的一个理由。这种批评恰好可以称之为“孟德尔综合症”。因为这些人不谋而合地都以孟德尔(GregoreMendel)长期默默无闻的科研工作为例。
当然,引文统计确实不能识别科学界尚未承认的一些科研工作的重要意义。总之,引文统计只是对科学界科研工作和兴趣的一种反映。超出这个范围去质疑科学界对于某些事物的看法的效力,已经属于另一个领域,被称为同行专家评议。
事实上,另外一些形式的引文分析对于超越科学界对于一些事物的一般看法,会有所裨益[31]。有些技术也许不仅有助于识别尚未成熟的科研工作,而且有助于识别发育未全的领域中的一些较为流行的现象。这些领域的特征是幼小,与他们的活动水平和被引频次相比,更具有潜在的重要性。但是,这属于另一个主题。
就对科学家个人的评价而言,引文统计无法超越科学界的一般看法,这一点似乎与引文统计反映这些看法的准确性问题并不相关。
另外一个相关的问题是由消失现象造成的。所谓消失现象,是指当某个科学家的著作对一个学科领域来说变得如此普通,甚至已经融入公共知识之中,人们往往就不再明确地引用它[32]。当然,事实上那些高水平的著作往往最后都会出现这种情况。但是,这种现象对有些著作而言来得太快。例如,J.Lederberg的大多数关于细菌性繁殖的论文都发表在20世纪50年代的早期[33],它们已经迅速成为遗传学领域的一个组成部分,以致于现在它们的被引频次远远低于人们根据其重要性所预期的被引频次。发生这种情况时,科学家某一著作在一个较长时段内的引文统计可能无法反映该科学家所做贡献的大小。这也正是我为什么在 1963年提议采用PERT型测度法,用以确定旧论文(旧著作)的当前影响[34]。
然而,“消失”现象造成不公平的可能性,也不是很大的。只有那些对于该领域做出非常基本的、非常重大贡献的著作才会发生这种现象,而且在“消失”现象发生前,这些相关的科学家由于这一著作所带来的声誉和被引频次,通常都已达到了某一个水平,而增加的被引频次只是锦上添花。当然,“消失”现象可能会导致对该领域不熟悉的人们的错误判断,但是,这正是为什么要由科学家所在领域的专家(或咨询这些同行专家)进行评估的原因。
有些人担心,粗糙的引文统计没有把发表被引论文的期刊地位或声望考虑进去。这是可能的,尽管基于多种引文测度方法而编制的SCI及SSCI《期刊引文报告》提供了期刊的等级,可以用来达到这一目的。从理论上看,正如F.Narin所指出的[35],对被引频次进行加权以反映上述因素是可能的,但是究竟应当如何加权,却是没有清楚说明的。对于一篇发表在《科学》杂志上的论文,其被引频次究竟是来源于了它发表在《科学》杂志上的成就,还是来源于由于《科学》杂志的高知名度所可能带来的高被引潜势。对于发表这些引用论文的杂志来说,它们又反映了什么,发表引用论文的期刊知名度是不是与发表被引论文的期刊同样重要呢?
尽管推测期刊知名度对被引频次可能会产生的影响,不是一件困难的事情,但是它似乎不是一个非常重要的因素。由于许多文摘和索引机构已经把大多数杂志发表的论文公诸于世,“能见度”变得非常清晰,所以在某一特定的杂志发表论文是否会大大增加被引的几率,是大可怀疑的。即使众所周知的杂志,如《物理学评论》,1963年发表的论文的47%,平均被引频次为0或1的,共有1966次[36]。不考虑期刊知名度对于论文被引用的影响的另一个原因是,大多数被频繁引用而造成影响的论文均发表在一组具有同样高的知名度和“能见度”的杂志上。
由批评引文统计不能测度什么一派提出的看法是,引文统计不能用于对不同学科领域的科学家进行比较。这种看法在一定程度上是正确的,这取决于比较时采用的方法。比较不同学科领域产生的被引频次,肯定是不恰当的。
导致错误的原因在于被引潜势可以因学科专业领域的不同而产生重大的差异。例如,每篇生物化学论文现在平均有30条参考文献,而每篇数学论文的平均参考文献却不足15条。生物化学文献的被引潜势是数学文献的一倍。G.P.Kosy[12]的研究表明,在不同学科中存在的被引频次和被引模式的差异,扩展至这样一些引用特征,包括论文的被引速度、论文被引频次达到峰值所需的时间、论文持续被引时间等。
事实上人们有理由相信,学科间的差异可能并不经常足以避免不公正的比较。同引分析的研究[31]表明,不同专业文献之间影响被引潜势的特征差异是很大的。被确认的特征包括:文献的规模、整合的程度以及文献的寿命。十分有趣的是,学科领域规模的测定是根据其核心文献的数量,而不是根据研究者的数量。最常见的误解可能认为引文统计是随着领域研究者的数量而变化的[7],这显然是错误的。被引潜势表示的远比理论上可能去引用某篇论文的人数要复杂得多,尽管这种人数确实影响产生高被引频次的几率。被引潜势很大程度上与下列因素有关:如发表论文的著者与研究者总数的比率、已发表论文在全部论文中的分布、参考文献在现有文献中的分布等。虽然我们对这些变量仍未研究清楚,但是随着不同领域的社会因素、专门化程度,以及研究进展速率的变化,被引潜势也将随之变化,是十分可能的。由于缺少对这些变量或者影响因素的详细了解,最准确的被引潜势的测度是某一领域平均每篇论文参考文献的数量,这一平均数未必与该领域的研究者的总数相关。
撇开这些理由,引文潜势确实随着学科专业领域的不同而变化,而且可能划定的学科专业领域边界比人们可能预计的更为细致、更为狭窄。在一场关于利用猫研究性行为生理学的争论中[37,38],Lester.R.Aronson宣称,利用老鼠进行同类研究的人们,只阅读和引用那些有关特定种的动物的研究文献。
使用引文统计进行评价研究,对所有部门、所有研究领域,都必须非常谨慎。他们会发现,这种评价研究必须在引文潜势的差异上予以适当补偿。这样做起来非常简单。例如,不直接比较一个数学家和一个生物化学家的被引频次,先将他们与各自的同行进行等级评定排序,再将两个列表进行对比。使用这种方法测评一位在数学家行列中位于前30%水平的数学家,可能胜过一位在生物化学家行列中居于前60%水平的生物化学家,即使后者被引频次超过前者。
此类分析可以说是一种复杂的方法,但是情况确实如此。跨学科或专业比较是一件复杂的事情。进行这样比较的需要比较充分的理由,足以投入大量的精力来确保评价工作的公平性。
另一派批评怀疑引文测度,认为引文测度含义模糊不清,叫人无法信任。困扰人们的含混不清之一是,虽然诺贝尔奖金获得者和美国国家科学院的大多数成员都拥有高被引频次[39],但是拥有同样高被引频次的其他一些人则没有获得类似的同行承认。他们指出,这种含混不清是内在固有的,一个科学家在两年中每年被引15次与5年中每年被引6次,这两者在引文测度中是无法予以区分的。G.C.Crosbie和R.W.Heckel补充指出[7],科研机构绩效的引文测度,对于分析的时段特别敏感,不同时段往往容易得出含混不清的结果,需要对它们进行谨慎的解释和说明。
所有这些都是言之有理的。使用引文统计测度个人绩效时肯定存在着含混不清之处,使之无法做到完全确定。引文统计作为一种解释性的工具却是确定的,它要求使用这些数据的人们对它做出周全而精微的判断。
(未完,待续)
(美)尤金・加费尔德著 侯汉清译 刘煜审校