我国四大引文索引数据库现状比较研究
邱均平 赵蓉英 马瑞敏
(中国科学评价研究中心 武汉 430072)
摘 要 本文将国内的四大引文索引数据库(CSCD,CSTPC,CSSCI,CJFD)在引文索引数据库的标杆SCI参照下进行了比较,提出应重新审视引文索引数据库的建立标准、重视来源期刊的评价和选择、走互补和合作的道路等建议,以对它们的发展提供一些有益的参考。
关键词 引文索引数据库 引文网络 SCI CSCD CSTPC CSSCI CJFD
引文索引数据库的先驱科学引文索引SCI(ScienceCitation Index)至1963年诞生以来,已经走过了40多个春秋,其卓越而独得的功能在全世界产生了重要的影响。在SCI的影响下,我国在这段时间内,也建立了一些有自己特色的引文索引数据库,比如CSCD,CSTPC,CSSCI,CJFD等。经过这么多年的考验,它们的优缺点也逐渐被学者所关注,并引起了较广泛的讨论。
1 引文索引数据库的定义、功能和核心标准
引文索引数据库是利用文献之间的相互引证关系来构造索引系统,从引文索引中查出一批所需的文献后,再利用这些文献的引文查找一批新的文献,这样不仅能获得一定数量的相关文献,还能揭示旧文献对新文献的影响(越查越旧),新文献对旧文献的评价(越查越新),展现新旧文献在学术研究中的关系,同时引文索引又打破了传统的学科分类界限,既能揭示某一学科的继承与发展关系,又能反映学科之间的交叉渗透的关系(越查越深入)。
引文索引数据库的功能从宏观来说有检索功能和评价功能两个部分构成。检索功能可以概括为如下几个方面:(1)探索和跟踪某个概念、方法等从最初提出到当前的历史、发展过程与应用情况;(2)掌握某作者(单位)发表的论文以及自发表以来的状况,谁引用了,有什么优缺点等;(3)关注同行最新的研究动态和争论热点,以求宏观上把握某学科领域的研究前沿。评价功能具体体现在如下几个方面:(1)期刊评价,其评价指标如影响因子,当年被引指数等;(2)人才评价,主要是该作者的累积影响因子;(3)机构评价,从发文和被引这两个分别表示量和质的指标来衡量;(4)学科评价,除了该学科地域、作者,核心期刊分布,最重要的构建知识地图,即在大量数据的基础上,利用文献和引文之间的耦合及同被引挖掘核心作者群、核心研究领域及研究前沿。
从引文索引数据库的定义和功能来分析,我们认为其核心标准如下:(1)首先引文索引数据库是索引数据库的一种,这就要求其符合“收录合理,更新及时;检索入口点要科学;检索方法和策略要尽可能多样;检索结果显示要科学”等一些传统索引数据库的基本标准和要求,这是引文索引数据库的基础。查询者可以通过作者、篇名(包括来源和被引文献)、机构名、期刊等进行检索,也支持逻辑检索和字典检索等检索方法,一个优秀的引文索引数据库首先是一个优秀的索引数据库。(2)引证和被引证关系要清晰,这是引文索引数据库的灵魂。某文章的参考文献要罗列,引用该文章的文献也要罗列,并且所有这些文献通过链接要构成一个网络,真正实现“越查越新”又“越查越旧”而又“越查越深入”的独特功能。这两者都不可有所偏废,一个是基础,一个是特色。根基不牢,即使有特色也给人不专业甚至混乱的印象;特色缺乏,就混同与一般索引数据库,无大的建树和突破。
2 CSCD等四个引文索引数据库简介
2.1 中国科学引文数据库(CSCD)
中国科学引文数据库即Chinese Science Citation Database,由中国科学院文献情报中心于1989年创建,其网络版建于2002年,在中国产生了巨大影响,是中国科学院院士推选人自然基金委国家重点实验室评估等查询库,由此可见其权威性,被誉为“中国的SCI”。
2.2 中国科技论文与引文数据库(CSTPC)
中国科技论文与引文数据库即Chinese Science and Technology Paper and Citation Database,由中国科学技术信息研究所和万方数据于1989年创建,既是科技人员查找参考文献的重要工具,又是各级科技管理部门和各科研机构、高等院校统计本单位科技论文发表情况的重要依据。
2.3 中文社会科学引文索引数据库(CSSCI)
中文社会科学引文索引即Chinese Social Sciences Citation Index,由南京大学与香港科技大学于1998年研制,其网络版也建于1998年,它是国家、教育部重点课题攻关项目,作为我国社会人文科学主要文献信息查询与评价的重要工具,填补了我国社会科学引文索引的空白。
2.4 中国学术期刊全文数据库(CJFD)
中国学术期刊全文数据库即Chinese Journal Full-text Database,中国期刊全文数据库由中国学术期刊(光盘版) 电子杂志社主办, 由清华同方光盘电子出版社正式出版,创建于1996年,也是中国知网的重要组成部分,是目前世界上最大的连续动态更新的中国期刊全文数据库。
3 研究思路
总的思路是以国际标准来衡量和比较国内的四个引文索引数据库,我们认为把美国SCI作为引文索引数据库的标杆和国际标准是可以被大家所接受的。SCI经过40年的发展,其功能日益完善和强大,成为在全世界具有巨大影响力的计量工具。我们可以用“最早、最庞大、最完善、最具影响力”来概括其作为引文索引数据库的显著特征和突出地位。另外,我们之所以把国内这四大引文索引数据库和SCI进行比较,就是希望我们评价它们的时候不能够仅仅局限在国内各个数据库之间比较,而且应该放在国际这个大背景去比较,既要看到成绩也要看到缺点,在外部标尺的衡量下,我们认为这样的比较更为科学。
基于以上一些考虑,下文我们将着重从“收录与更新”、“检索入口点”、“检索方法和检索记录”、“检索结果及引文网络状况”这四个最基本的方面来对国内CSCD,CSTPC,CSSCI和中国期刊全文数据库(CJFD)这四个引文索引数据库和SCI进行对照分析。
4 CSCD等四个引文索引数据库和SCI的比较研究
4.1 收录与更新角度
收录与更新主要考察各个数据库数据容量和吐旧纳新的功能,至于收录的合理性问题不在这里讨论,它们的具体情况如表1所示:
表1 从收录与更新角度比较国内外数据库情况
数据库/项目 | SCI | CSCD | CSTPC | CSSCI | CJFD |
收录学科范围 | 自然科学 | 自然科学 | 自然科学 | 人文社科 | 不限 |
收录起始时间 | 1945年 | 1989年 | 1989年 | 1998年 | 1994年 |
来源期刊 | 约6358种 | 约1000种 | 约5000种 | 约493种 | 约7486种 |
论文数量(累积) | 约2000万 | 约71万 | 约184万 | 约50万 | 约1400万 |
引文数量(累积) | 上亿 | 约222万 | 约416万 | 约260万 | 近亿 |
更新周期 | 每周 | 每年 | 每年 | 每年 | 每月 |
从表1我们可以得到如下一些结论:
(1)从收录起始时间来看,我国的四大引文索引数据库都存在着收录时间短这样一个问题,和SCI收录近60年的文献来看,它们收录的内容时间相较很短,最长的没有超过20年,而CSSCI收录文献距今还不足十年。这就说明我国数据库的回溯性普遍较差,在很大程度上难以满足引文索引数据库“越查越旧”的功能。
(2)从来源期刊来看,CSCD和CSSCI选刊的确很严格,这个和它们参照SCI选刊方法有着密切关系。但并不是选刊越少就越好,覆盖面和代表性以及选刊方式都要考虑周全。CSCD和CSTPC这两个同属于自然科学领域的数据库竟然相差了多达4000种,的确需要引起我们的思考。除 CJFD外,我国其他几个数据库偏重于评价功能,现在从实际状况来看,这对于其市场覆盖率将是很有影响的。
(3)从论文和引文数量来看,相对于SCI的庞大文献系统,除 CJFD外,我国的四个数据库显得比较精炼,当然这和选刊和回溯年限有密切关系,但这也影响了评价的合理性,尤其是论文影响力的评价。这在很大程度上就难以满足引文索引数据库“越查越新”和“越查越深入”的功能。
(4)从更新周期来看,和SCI相比,除 CJFD外,我国这几个数据库都存在着较大的滞后性,更新速度慢,例如CSSCI现在提供的最新数据仍然是2004年的,这不论对于检索还是评价功能来说,都是不能很好满足的。
(5)从(1)到(4)来看,CJFD在各个方面还是有着较大的优势,虽然CJFD也有自己的缺点,尤其是在引文方面(后文将详细叙述)。但是这也给我们一个启示:其他三个数据库要和CJFD合作,以弥补更新慢的缺点。
4.2 检索入口点角度
所谓检索入口点是指各个数据库提供的检索界面中所包含的检索字段,包括来源文献库和引文文献库两种情况。主要考察其检索的多样性和友好性。它们的具体情况如表2所示:
表2 从检索入口点角度比较国内外数据库情况
数据库 入口点 | SCI | CSCD | CSTPC | CSSCI | CJFD |
来源 | 被引 | 来源 | 被引 | 来源 | 被引 | 来源 | 被引 | 来源 | 被引 |
论文题目 | * | | * | * | * | * | * | * | * | * |
主题词 | * | | | | | | | | * | |
关键词 | | | * | | | | * | | * | |
摘要 | | | * | | | | * | | * | |
全文 | | | | | * | | | | * | |
论文作者 | * | * | * | * | * | * | * | * | * | * |
第一作者 | | | * | * | | | * | | * | |
作者机构 | * | | * | | * | * | * | | * | |
第一机构 | | | | | | | * | | | |
期刊名称 | * | * | * | * | * | * | * | * | * | * |
ISSN | | | * | | | | | | | |
出版时间 | * | * | * | * | * | * | * | * | | * |
学科分类 | | | | | * | | * | | | |
基金类型 | | | * | | * | | * | | | |
作者地区 | * | | | | * | | * | | | |
备注 | | | | [1] | | [2] | | [3] | | |
[1]还包括“被引实验室”、“被引出版社”、“被引文献主编”这三个字段
[2]还包括“引文作者”、“引文刊名”这两个字段
[3]还包括“被引文献类型”、“被引文献细节”这两个字段
从表2我们可以得到如下结论:
(1)从来源文献角度来看,我国的几个数据库检索入口都做得不错,结合了我国自己科研评价的一些实际需要设置了特殊字段。CSTPC,CSSCI设置“学科分类”字段以便进行学科评价,并且CSCD,CSSCI,CJFD特别注重“第一作者”这一字段。和SCI比较来看,有着自己独特的特点,这点是值得肯定的。但是在检索入口字段设置上,SCI设置有主题词检索,使得检索更规范,可以提高查准率。在国内只有CJFD可以实现此功能,其他三个数据库需要在这个方面加强。值得一提的是CSSCI提供了12个主要的入口点,在检索方面有着较好的友好性,如加强主题词方面的建设,将成为这方面的典范。
(2)从被引文献角度来看,我国的数据库设置了一些特色的字段,尤其是CSCD根据评价的需要设置了“被引实验室”等字段,这些对于论文的影响力统计是很方便的。CSCD在我国有“中国的SCI”之称,的确有着其科学道理。并且单从检索入口这个角度来看,它们比SCI还要有优势。但是我们从后面“检索结果和引文网络情况”分析也看到,CSTPC和CSSCI之所以设置比较多的被引文献检索入口,和其引文网络建设较差有密切关系。另外需要强调的是,CJFD 虽然只提供“参考文献”这个入口,但是可以利用“论文题目”、“论文作者”、“期刊名称”进行检索,从而得到论文被引次数,作者被引次数和期刊被引次数。
4.3 检索方法和检索记录角度
检索方法主要指布尔逻辑和字典检索这两个方面,布尔逻辑功能的设置考察检索的灵活性和广泛性,从而保证检索的查全率和查准率,有着非常重要的作用。字典检索主要是为了提高查准率。检索记录则有利于考察检索过程,方便和缩减检索过程。它们的具体情况如表3所示:
表3 从检索方法和检索记录角度比较国内外数据库情况
数据库
方法
SCI
CSCD
CSTPC
CSSCI
CJFD
布尔逻辑检索
或
*
*
*
*
*
与
*
*
*
*
*
非
*
*
*
*
字典检索
作者字典
期刊字典
无
无
无
无
检索记录
将所有检索记录保留,并且每次检索记录间仍然可以用布尔逻辑组合进行二次检索
同SCI
双击检索栏可以调出以前检索过的词
双击检索栏可以调出以前检索过的词
双击检索栏可以调出以前检索过的词
从表3我们可以得到如下一些结论:
(1)CSCD,CSTPC,CJFD在布尔逻辑检索方面可以和SCI媲美,最基本的功能都可以较好的实现,甚至有着更强大的功能。比如CJFD在这个方面就提供了非常丰富的帮助文档,描述了各种特殊的检索方法。有兴趣的可以参阅其帮助文档。只有CSSCI不能进行“非”检索,并且深入分析的话,CSSCI只能将布尔逻辑应用在不同字段之间,同一字段内不能应用它。这是CSSCI在检索方面非常大的一个缺陷,灵活性不够。
(2)在字典检索方面,与SCI相比,我国的四个数据库显得力不从心。没有一个实现此功能,连最起码的单位字典都没有设置,这对于查准率来说是一个很大的缺憾,也显得数据库不是那么的人性化。
(3)在检索记录方面,CSCD完全模仿SCI,有着其独特的二次检索功能。CSTPC 、CSSCI和CJFD都有检索记录保留功能,但是相对CSCD来说,功能还不够强大。
4.4 检索结果与引文网络状况角度
检索结果主要是指一条查询记录的表现形式,有哪些字段构成,考察数据库的科学性和系统性。引文网络状况是指在检索结果呈现时链接的完备性和科学性,这是区别与传统索引数据库的根本特征,是引文索引数据库的闪光点。这里需要强调的一点是,我们之所以把“检索结果”和“引文网络状况”放在一起进行比较,是因为它们两者之间有着天然的联系,检索结果必然有着引文网络的结点,引文网络必然要建立在检索结果之上。基于此,我们将它们放在一起讨论。具体情况如表4所示:
表4 从检索结果及引文网络状况角度比较国内外数据库情况
数据库/结果 | SCI | CSCD | CSTPC | CSSCI | CJFD |
来源 | 被引 | 来源 | 被引 | 来源 | 被引 | 来源 | 被引 | 来源 | 被引 |
论文题目 | * | * | * | * | * | * | * | * | * | * |
关键词 | * | * | * | * | | | * | | * | |
摘要 | * | * | * | * | | | | | * | |
语种 | * | * | * | * | | | | | | |
文献类型 | * | * | | | * | | * | | | |
论文作者 | * | * | * | * | * | * | * | * | * | |
作者机构 | * | * | * | * | * | | * | | * | |
期刊名称 | * | * | * | * | * | * | * | * | * | |
ISSN | * | * | * | * | | | | | | |
出版时间 | * | * | * | * | * | * | * | * | | |
学科分类 | * | * | * | * | * | | * | | | |
基金类型 | | | * | * | * | | * | | | |
参考文献 | * | * | * | * | | | * | | | |
被引次数 | * | * | * | * | | | | * | | * |
引证记录 | * | * | | | | * | | * | | * |
相关文献 | * | * | * | * | | | | | * | |
从表4我们可以得到如下一些结论:
(1)从检索结果和引文网络状况角度来看,CSCD更加确立了其作为“中国的SCI”的地位。我们从检索结果来看,可以发现CSCD几乎完全模仿SCI,它们都有一个非常显著的特点,那就是来源文献库和被引文献库的有机融合,形成了一个网络,而非两个独立的模块。真正实现了引文网络的目标,从这点来看,CSCD不愧是引文索引系统在我国的典范。
(2)CSTPC和CSSCI在引文网络建设方面有着共同性,它们把文献来源库和被引文献库完全割裂开来,两者没有形成一个系统,只是它们出于评价的目的,实现了一些基本的引文统计功能。在这个层面上讲,CSTPC和CSSCI并不能称为地道的引文索引数据库,只是一个引文索引统计数据库,范围要比广义的引文索引数据库要小。
(3)CJFD在引文网络建设方面有着其特殊性,它并不把引文作为单独的检索项呈现,而是包含在参考文献中。如果你搜索一篇文章的被引情况,它会罗列出所有引用这篇文章的所有文献,但是当你点击这些引证文章的时候,它们又回到了来源文献查询角度,网络又被切断了。可见CJFD并不适合进行引文回溯和前瞻检索,但可以进行引文统计,并且由于它收录范围广,更新快,做一些基本的引文分析反而是非常好的工具,查得更全更及时。
(4)从“相关文献”建设上,中国的CSCD和CJFD可以和SCI相媲美,所谓相关文献是指参考了一篇或几篇以上相同论文的文献集合,是文献耦合和同被引的一个具体应用,这对于扩展文献的相关信息查询是非常有益的,尤其是那些相关度高的文章,更是具有重要的研究意义。和SCI有差别的是,SCI标出了相关度即共同参考了的文献数,而我国的这两个数据库并没有给出相关度,这是它们的不完善之处。
5 几点思考
(1)对于引文索引数据库的考察标准需要重新审视。引文索引的两大功能在中国除了CSCD有较好继承和发展外,其他几个数据库在引文库建设方面做得不是很好,从根本上讲是一个引文统计库,为评价而服务,并没有建设成为强大的引文网络,这对于引文索引数据库的检索功能将是一个大的缺憾。
(2)加强来源期刊评价研究,既防止过多又防止过少的情况,过多在来源文献统计的时候较难把握质量问题,过少对于引文索引数据库的网络建设无疑是不利的,很难实现其独特和强大的检索功能。而文献计量中二八律,影响因子等一些方法和指标都可以用来较好地确定期刊来源。要用科学的方法选择来源期刊。期刊的评价和选择是现在迫切需要解决的任务之一。
(3)查准率和查全率要多考虑。随着时间的积累,来源文献和参考文献量将越来庞大,在保证查全率的条件下提高查准率是所有检索系统追求的目标。查全率和查准率的保证之一便是布尔逻辑和字典功能的实现,尤其是要设置字典功能,严格控制好各个字段的准确标引,以防统计时出现漏检和误检。对于科学评价日益重要的今天,这是我们现在最为关键的任务之一。
(4)互补和合作是扩大市场的有效途径。在我国的四大引文索引数据库中有两个和自然科学相关(CSCD,CSTPC),有一个和社会学科相关(CSSCI),一个是综合的(CJFD)。由于它们受不同单位的管理和资助,没有形成一个交流的平台,以自己的一套著录标准进行。这就不利于资源的优化。CSCD在各个方面都做得不错,但是它包含的信息太少,更新慢,这就客观上需要和CSTPC整合,最好将两者合二为一,另外也需要充分利用CJFD及时更新的数据。而CSSCI则需要在引文网络和检索方法建设上和CSCD学习。如果把CSCD和CSTPC整合为“中国的SCI”,把CSSCI建成为“中国的SSCI”,如果再集成到象Web Of Knowledge平台上,形成一个整体。作为一个集成化产品,将会赢得更广阔的市场和发展。
参考文献
1 邱均平.文献计量学.北京:科学技术文献出版社,1988
2 吕润宏.浅析国内引文数据库的种类及特点.情报探索,2005(3):57-60
3 康延兴.引文检索策略的探讨.情报科学,2005(8):1234-1236
4 康延兴,李恩科.我国引文数据库发展的现状与方向分析.情报理论与实践,2004(5):547-549
5 任丽娟.国内五种引文数据库的比较研究.情 报 科 学,2005(3):401-405
6 曹志梅,王凯.我国四大引文数据库比较分析.情报学报,2002(4):481-485
7 张凌之.影响因子在我国科技期刊评价中的作用分析.编辑学报,2003(2):126-127
8 http://www.csdl.ac.cn (2006-5-12)
9 http://202.114.65.57 (2006-5-12)
10 http://202.114.65.51:90 (2006-5-12)
11 http://cssci.nju.edu.cn (2006-5-12)
12 http://www.scientific.thomson.com(2006-5-12)
邱均平 武汉大学中国科学评价研究中心主任,中国索引学会副理事长;
赵蓉英 武汉大学中国科学评价研究中心副主任;
马瑞敏 武汉大学中国科学评价研究中心博士生。