关于Google Scholar与Web of Science引文分析的实证研究陶慧卿庄琦潘卫

发布时间：2018-09-25 浏览次数:109

关于Google Scholar与Web of Science引文分析的实证研究

陶慧卿庄琦潘卫

（上海交通大学情报科学技术研究所 200240）

摘要从期刊被引频次的角度出发，采取实证研究的方法，选取国际权威的引文数据库Webof Science和著名的搜索引擎GoogleScholar，以《美国信息科学和技术学会杂志》为文献源进行相关分析。

关键词 Google Scholar Web of Science 引文分析

1 引言

任何一项科研成果都是建立在前人研究成果之上的。分析各学术论著之间的引证关系，可以在某种程度上揭示科研活动的继承与发展。尤金・加菲尔德创立了科学引文索引和引文分析理论体系后，引文分析迅速发展成为科研成果评价的重要方法之一。在引文分析中，被引频次是一个重要的评价指标，它通过被引用的绝对量来评价期刊的被利用的程度。目前，Web of Science、CSCI、CSSCI等引文索引都采用了该评价指标。

随着网络的普及、现代信息技术的逐渐成熟，学术出版、交流朝着多元化的方向发展。除传统的学术期刊之外，预印本系统、开放期刊等都成为学者发布、传播、获取知识资源的重要途径。但是，传统的数据库都是根据自己确定的标准，选择一定比例的高质量期刊作为来源期刊收录。在这个过程中不可避免地会遗漏大量新兴交流渠道中的学术论文，从而影响期刊的被引频次的准确度，不利于充分客观地反映学术论文、期刊的价值和影响力。

2 Google Scholar与Web of science简介

2.1 Google Scholar简介［1］

Google Scholar是世界上最强大的搜索引擎公司Google推出的学术搜索工具，由计算机专家Anurag Acharya开发。目前Google Scholar已经与多家学术、科研和技术出版商进行了广泛的合作，如ACM、Nature、IEEE、OCLC等。这种合作使用户能够检索特定的学术文献。

通过Google Scholar，读者可以从学术出版者、专业团体、预印本库以及从网络上获得的各种类型的学术文献，包括学术期刊、文摘、同行评议论文、学位论文、图书、预印本、PPT介绍和技术报告等［2］。Google Scholar重点提供医学、物理、经济、计算机等学科文献的检索，还可通过知识链接功能提供文章的引用次数及链接，查找文献的被引用情况。

Google Scholar的检索范围不仅仅局限于传统形式的期刊文献，还包括了网上多种非传统形式公开的文献，因此Google Scholar不仅可以免费搜索跟踪同行评议过的文献的引证文献，还能搜索跟踪会议录、学位论文、预印本和在版文献, 以及其他非传统媒体形式文献的引证文献［3］。并且GoogleScholar的检索语种范围不局限于英语，还包括其他各种语种。

2.2 Web of Science简介［4］

美国科技信息研究所(Institute for ScientificInformation，ISI)于1964年正式发行Science Citation Index(SCI)。2000年，ISI推出ISI Web of Knowledge学术信息资源整合体系,其中以Web of Science为核心。通过Web of Science可以直接访问ISI的三大引文数据库Science Citation IndexExpanded（SCIE）、Social Science CitationIndex(SSCI)、Arts&Humanities Citation Index(A&HCI)。ISI的自然科学数据库按学科出版五个系列：生命科学（Life Science, LS）收录1370种期刊；工程、计算和技术（Engineering,Computering & Technology EC&T）收录1030种期刊；临床医学（Clinical Medicine, CM）收录1000种期刊；物理、化学和地球科学（Physical, Chemical& Earth Science, PC&ES）收录925种期刊；农业、生物学和环境科学（Agriculture, Biology & Environmental Science, AB&ES）收录975种期刊［5］。

Web of Science的检索是根据其所收录的、经过筛选的期刊, 选择各学科领域权威的、影响力高的期刊。由于受语言的限制，Web of Science收录的英文期刊较多。因此，Web of Science的检索范围以学科核心期刊为主，以英语语种文献为主。

3 研究方法

Google Scholar的出现为引文分析提供了一种选择,那么目前广为应用的传统引文数据库与Google Scholar各自具有哪些优势,存在哪些不足?为此，笔者从被引频次的角度出发,采取实证研究的方法,对这些问题作一个初步的探讨。本次实证研究选择Web of Science和GoogleScholar 作为统计被引频次的引文分析工具。选择信息科学领域的权威期刊《美国信息科学和技术学会杂志》(Journal of The American Society for Information Science andTechnology，JASIST)作为文献源，选取其在2001年至2007年所刊载的文章作为统计分析对象。需要说明的是,由于论文的被引频次相对较高,笔者在此仅保留JASIST 中的论文而舍弃编辑寄语、人物传记、书评等文章。

笔者希望通过此次实证研究，能够对以下问题做出回答：

（1）Web of Science和Google Scholar在文章的被引频次统计上存在的差距有多大？

（2）传统引文数据库Web of Science存在哪些不足？

（3）Google Scholar能否作为引文分析的工具？如果采用Google Scholar作为引文分析工具还存在哪些问题？

4 结果分析

笔者在Wiley InterScience电子期刊检索到JASIST在2003年、2004年、2005年、2006年、2007年间刊载的文章数量分别为：103、100、123、163、179。以每篇文章的标题作为检索词，选择Web of Science和Google Scholar作为统计被引频次的引文分析工具。

为了比较Web of Science与Google Scholar在文章的被引频次上存在的差别，笔者分别用Web of Science和Google Scholar作为引文检索工具统计了在2003年、2004年、2005年、2006年、2007年中JASIST的被引频次，见表1、表2。

表1 2003-2007年Web of Science中JASIST被引频次分析

年份	被引频次	平均被引频次	最大被引频次	最小被引频次
2003	760	7.45	46	0
2004	525	5.25	25	0
2005	341	2.77	20	0
2006	197	1.22	9	0
2007	43	0.24	2	0

表2 2003-2007年Google Scholar中JASIST被引频次分析

年份	被引频次	平均被引频次	最大被引频次	最小被引频次
2003	1170	12.45	65	0
2004	1298	12.98	55	1
2005	872	7.15	100	0
2006	763	4.77	62	0
2007	289	1.65	98	0

表1、表2分别列出了2003-2007年JASIST在Web of Science、Google Scholar中的被引频次。从表中可以看出，对比平均被引次数和最大被引次数，GoogleScholar都要大大高于Web ofScience。从总被引频次来看，2003-2007年五年间，Web of Science中JASIST的被引频次比在Google Scholar低很多，但是从文章的层面来看，Web of Science与Google Scholar相比，是其中个别文章的被引频次差距悬殊，还是大部分文章的被引频次存在差距？为此，笔者统计了五年来各论文在Web of Science和Google Scholar中的被引频次，见表3。

从表3可以看出，2003-2007年间大部分文章在Google Scholar中的被引频次高于在Web of Science中的被引频次，也就是说总被引频次的差异是由大部分文章的被引频次差异造成的。这里需要说明的是在2007年间，由于文章刚出版所以大部分文章的被引频次较低，虽然GS=WS的比重高于GS>WS,但是在GS=WS类型的文章中有88.79%的文章在Google Scholar中的被引频次与在Web of Science中的被引频次均为零。对比表2、表3中Google Scholar与Web of Science的最大被引频次可知，总被引频次的差异是由大部分文章的被引频次差异悬殊造成的。从总体上来看，较之Google Scholar，Web of Science中文章的被引频次偏低是一种较为普遍的现象。

表3 2003-2007年JASIST中每篇文章的Webof Science与Google Scholar被引频次比较表

年份	GS>WS	比例	GS=WS	比例	GS<WS	比例
2003	64	62.14%	11	10.68%	28	27.18%
2004	94	94%	3	3%	3	3%
2005	93	75.61%	23	18.70%	7	5.69%
2006	97	59.51%	52	31.90%	14	8.59%
2007	66	36.87%	107	59.78%	6	3.35%

注：（1）GS代表GoogleScholar, WS代表Web of Science

（2）GS>WS代表该文章在GoogleScholar中的被引频次高于在Web of Science中的被引频次

GS=WS代表该文章在GoogleScholar中的被引频次等于在Web of Science中的被引频次

GS<WS代表该文章在GoogleScholar中的被引频次低于在Web of Science中的被引频次

图1 2003-2007年JASIST中每篇文章的Webof Science与Google Scholar被引频次比图

注：（1）GS代表GoogleScholar, WS代表Web of Science

（2）GS>WS代表该文章在GoogleScholar中的被引频次高于在Web of Science中的被引频次

GS=WS代表该文章在Google Scholar中的被引频次等于在Webof Science中的被引频次

GS<WS代表该文章在Google Scholar中的被引频次低于在Webof Science中的被引频次

图2 2003-2007年GS>WS与GS=WS变化趋势图

从图2中可以发现，除了在2004年GS>WS的比重发生突然增加，2005年至2007年间GS>WS的比重呈逐年下降趋势，而GS=WS的比重整体上呈逐年上升趋势，这从某种程度上说明Google Scholar对数据的更新不如Web of Science及时。

如果文章在Web of Science和Google Scholar中的被引频次相同，那么二者的被引记录是否完全一致呢？笔者在研究中发现即使被引频次相同，但是Web of Science与Google Scholar的被引记录不完全一致。例如，2005年出版的文章“Mappingthe Chinese Science Citation Database in terms of aggregated journal-journalcitation relations”，其在Web of Science和Google Scholar中的被引频次均为5，但是进一步研究发现，二者的被引记录只有三条是完全一样的，也就是说这篇文章的实际被引频次应该是7。由此可见，即使被引频次相同，也并不意味着该频次就是这篇文章真实的被引频次，仍需要再作进一步的比较分析。

另外，笔者在检索过程中发现了一些频次统计数据的错误。例如：《Digitallibraries》中“situatinguse in changing in information infrastructure”一文，在Google Scholar检索结果中显示被引频次为31，但是进一步查看只能看到30条引用文献记录。类似的情况在统计分析过程中出现多次，这些现象无疑会降低GoogleScholar作为引文分析工具的可信度、权威性。

5 几点结论

通过对2003-2007年出版的JASIST文章在Web of Science与Google Scholar中被引频次的实证分析，我们可以总结回答本文开头提出的三个问题。

（1）从表1和表2的统计数据中我们可以看出Web of Science与Google Scholar在被引频次上的差异。JASIST文章在Google Scholar上的被引频次、平均被引频次、最大被引频次远高于在Web ofScience上的被引频次。从总体上看来，这种被引频次差异是由大部分文章的被引频次差异造成的。由于Google Scholar的检索范围不仅仅局限于传统形式的期刊文献，还包括了网上多种非传统形式公开的文献，因此，Google Scholar不仅可以免费搜索跟踪同行评议过的文献的引证文献，还能搜索跟踪会议录、学位论文、预印本和在版文献, 以及其他非传统媒体形式文献的引证文献，这就大大拓展了Google Scholar的引文检索范围。而Web of Science的检索是根据其所收录的、经过筛选的期刊, 选择各学科领域权威的、影响力高的期刊，在这样的准则下无疑会对其检索范围产生一定限制。

（2）根据SCI的收录原则，SCI 的专家们根据期刊的编辑、出版、文献计量指标等综合因素进行选刊，对于选出的源刊中的每一篇文献全部选用，进入SCI数据库。在这样的收录准则下，传统引文数据库的准确性、规范性和权威性都比较高。因此传统引文数据库的权威性和影响力决定了它们将仍然是非常重要的引文分析工具。由于传统引文数据库是依据布拉德福定律和相关评价指标选择收录部分高质量的期刊，这可以保证能够反映学术论文文献在其所处研究领域内的学术价值和权威性。一般而言，Article是原创的直接成果报告；Review 是学科专家对问题所作的评述；Letter 是科学问题的研讨或快报，这三类文献表述的内容较全面, 文献著录项目较齐全, 更具学术价值, 会获得较多的引用。但是对于普通文献这种做法并不能全面反映文章引用的情况，Webof science对文章被引频次普遍低于GoogleScholar的被引频次也证实了这一点。

（3）由于在Google Scholar中得到的引用文献既包括传统学术期刊，也包括Web网页、预印本和电子期刊等，所以它不仅能反映学术期刊之间的引用关系，也能广泛反映学术期刊、Web网页、预印本、电子期刊之间的引用关系。因此Google Scholar对引用情况的覆盖率远远高于传统引文数据库Web of Science。这是Google Scholar成为引文分析工具的最大优势。但是，Google Scholar要替代传统引文数据库成为真正意义上的引文分析工具仍然存在很多问题。首先，从内部条件来看，数据的质量不够高，这表现在对数据的更新程度和对文章的覆盖率上。从表3中，我们可以看到从2005年到2007年GS>WS在逐年下降，而GS=WS在逐年上升。虽然GoogleScholar对引用的覆盖率优于Webof Science, 但是这反映了GoogleScholar对数据的管理和更新程度不如传统引文数据库Web of Science。其次，从外部条件来看，开放式存取在各学科间的发展不平衡。开放式存取是在自然科学领域兴起并发展起来的，其取得的成绩也大部分来自自然科学领域，如物理学、生物学、计算机科学等［6］。据调查，物理学权威期刊PhysicalReview Letters上的论文所引用的参考文献中，电子预印本资料占到90%以上。相对于自然科学领域，社会科学领域的开放式存取尚处在初步发展阶段［7］。同时，开放式存取中的信息资源质量和知识产权问题还存在很多争议。因此，无论从内部条件还是外部条件来看，Google Scholar要成为一个真正意义上的引文分析工具，还面临着很多挑战。

综上所述，传统引文数据库Web of Science规范、系统、权威，但是在当前的环境下遗漏了很多文献之间相互引用的情况。GoogleScholar能够广泛地反映文献之间相互引用的情况，但是不够稳定、权威。因此，笔者认为，为了保证引文分析的客观性和准确度，可以同时采用多个引文分析工具进行综合分析。

6 本次实证研究的局限

本次实证研究仅对引文分析工具Google Scholar和Web of Science之间的关系作了一个初步的探讨。从被引频次的角度出发，而没有对引用文献的类型、语种等进行多角度的分析，从而使得分析显得不够深入，结论缺乏说服力；本次实证研究仅仅选取了图书情报领域的一份期刊的某一段时间作为分析对象，因此结论的普遍性不够突出。笔者认为，在以后的研究中可以从以下几个方面改进：

（1）选择数字信息发展历程不同阶段中的两个时间段，分别进行实证研究，从而可以将两段时间中的实证研究结果进行比照，增强文章结论的说服力。

（2）从多个角度出发，采用多种统计学方法，从而使分析更加准确、更加深入。

（3）扩大分析范围，选择不同学科的多种期刊进行分析，这样可以做出一个更有普遍意义的结论。

参考文献

1 GoogleScholar. http://scholar.google.com

2 许涛，吴淑燕. Google搜索引擎及其技术简介.现代图书情报技术，2003（4）：58－61

3 化柏林.Google搜索引擎技术实现探究.现代图书情报技术，2004年刊：40－43

4 Web ofScience.http://portal.isiknowledge.com

5 耿海英, 肖仙桃. Web of Science 和Google Scholar 引文检索功能比较.图书与情报，2007（3）

6 Kayvan Kousha, Mike Thelwall.Google Scholar Citations and Google Web/URL Citations: A Multi-DisciplineExploratory Analysis.JASIST，2007,58(7)：1055-1065

7 Kayvan Kousha, Mike Thelwall.How Is Science Cited on the Web? A Classification of Google Unique Web Citations.JASIST，2007,58(11)：1631-1644

陶慧卿女，上海交通大学情报科学技术研究所在读研究生。

庄琦男，上海交通大学情报科学技术研究所副研究员。

潘卫女，上海交通大学情报科学技术研究所副研究员。