国外三大预印本系统对比研究
徐刘靖1 陶 蕾1 俎宇鹏2
(1�上海大学图书馆 200444) (2�确山72506部队 河南驻马店463000)
摘 要 预印本系统是新兴的非正式学术交流系统。本文以三个不同学科领域的预印本系统为基础,从以下四个方面对其进行了对比研究:系统功能、管理运行、质量控制和长期保存。最后指出预印本系统建设和发展所面临的问题。
关键词 预印本系统 运行模式 质量控制 长期保存
预印本主要指“科研工作者的研究成果还未在正式出版物上发表,而处于和同行进行交流的目的,自愿先在学术会议或者通过互联网发布的科研论文、科技报告等文章。”[1]而预印本系统是专门收集预印本的一种网络数据库,其内容由科研人员自愿提交,没有经过同行评议,基本采取文责自负原则,任何同行都可以对系统内容进行评价。预印本系统是一种重要的非正式学术交流系统,相对于正式学术交流系统,它具有传播速度快、范围广,无出版时滞,避免审稿人偏见,有利于学术争鸣,有利于科学优先权的确立等优点。目前,国外的预印本系统建设已经日趋成熟,许多学科领域都建立了相应的系统。本文拟对国外三个不同学科领域的预印本系统进行比较研究,以期对预印本系统的建设和发展抛砖引玉。
1 国外预印本系统建设情况简介
1.1 arXiv系统
arXiv是由美国国家科学基金会和美国能源部资助, 于1991年8月由美国洛斯阿拉莫斯(Los Alamos)国家实验室建立的预印本系统。目前,arXiv由美国康乃尔大学维护和管理,并由该大学和美国国家科学基金会共同提供经费支持。arXiv主要收录包含物理学、数学、非线性科学、计算机科学、定量生物学和统计学六个学科的预印本。除了预印本外,它还收录American Physical Society、Institute of Physics等12种电子期刊全文,但不包括非学术性信息,如新闻或政策性文章等。
arXiv是建立最早、规模最大、建设最成功的预印本系统,是其它学科型预印本系统的典范。目前,它在世界各地设有17个镜像站点,共收录文章456,792篇(2008年1月2日统计)。
1.2 CogPrints系统
CogPrints是由南安普顿大学电子和计算机学系于1997年创办的认知科学的预印本系统,主要收录心理学、神经科学、语言学、计算机科学、哲学、医学、人类学以及与认知学研究相关的社会学、物理和数学等方面的文章。除预印本外,CogPrints还收录少量的图书章节、期刊文章、会议录和学位论文等。CogPrints利用的是eprint.org免费软件建立的,到目前为止共有3,084篇文章(2008年1月2日统计)。
1.3 RePEc系统
RePEc是由分布在全球61个国家和美国35个州通力合作自愿建立的一个公共的经济类数据库,旨在促进经济学以及相关学科的学术交流,提高经济学研究水平。RePEc收录的资源类型丰富,既包含预印本,也包含研究报告、会议录、期刊论文、图书章节等。RePEc是一个分布式的预印本系统,所有的文章都存储在不同地点的分布式数据库中,而RePEc只提供文章的书目信息。到目前为止RePEc共有记录558,000条,其中448,000条可以网上获取全文。(2008年1月2日统计)。
2 三大系统比较分析
从总体规模上来看,arXiv和RePEc两大系统收录的文章数量已有十几万条,规模较大,属于比较大型的系统;而CogPrints只有3,047条,属于中小型系统。下面分别从系统功能、管理运行、质量控制和长期保存四个方面对三大系统进行对比分析。
2.1 系统功能
从功能上看,三大系统都提供了提交、浏览、检索和下载等基本功能。另外,它们还提供有以下两大高级功能:(1)引文分析。通过该功能,可以从一定程度上评价系统中文章和作者以及他们的影响力。(2)最新信息通告。该功能便于用户了解最新的研究动态。RePEc系统通过传统的Email实现信息通告功能,而arXiv和CogPrints系统提供的是RSS(Really Simple Syndication)订阅功能。
从整体上来看,arXiv的检索功能相对较强,不但可以检索作者、题名、文摘,还可以检索报告号及他人的评论。RePEc提供的功能更为多样化,例如数量统计分析功能,定期统计系统内文章和作者的点击量与下载量,并对之进行排序;另外,RePEc还建立了系统博客,为用户提供一个发表观点和相互交流的平台。相比较,CogPrints较简单,主要是检索和按照出版年及主题浏览功能,其网页设计简洁易用。
2.2 管理运行
三大系统的管理运行流程基本一致:注册-登录-投稿-审查-发表。[2]
arXiv采用集中和镜像相结合的管理运行模式,位于世界各地的用户通过一个统一的登录界面,将预印本提交到一个集中的系统中;由美国康乃尔大学负责对提交的所有预印本进行审核和管理;最后,提交的文章被发布到总站和17个镜像站上。
CogPrints采用集中的管理运行模式,无论从预印本的提交、审查到发表都是由南安普顿大学电子和计算机学系进行管理。与其他系统不同的是,在投稿流程中,CogPrints为不同类型的内容提供了不同的投稿界面和元数据信息。
RePEc采用分布式管理运行模式。RePE有机构和个人两种不同的用户:(1)机构用户,主要来自于参与RePE项目的相关机构。这些用户所提交的内容存储在所在机构系统中,并由各自机构负责日常的运行管理;RePEc只提供这些用户文章的书目信息和链接。(2)个人用户,指所在机构没有参与RePEc项目的用户。这些用户的文章由RePEc系统负责保存和管理。
2.3 质量控制
质量控制问题是预印本系统建设和发展的难点。整体上看,三个系统内的大部分论文都没有经过同行评议,基本上采取文责自负原则,只对论文形式和内容进行简单的审核,如:提交格式是否正确,论文内容是否有违法或抄袭以及是否具有学术性等。
RePEc系统除了收录预印本外,还收录了大量的已出版期刊和图书章节,这些内容已经经过学术审核,因此其质量有一定的保障。
arXiv为了保证其内容质量引入了一种新的机制――认可系统(Endorsement System),其基本原理是新的预印本提交者需要得到系统内认可者的认可才能提交预印本。[3]该机制封杀了“业余研究者”,确保了系统用户为相关领域的科学团体,提交的内容是与本领域有关的学术内容,保证了预印本系统的质量。
2.4 长期保存
因为预印本系统产生时间并不长,存储文章数量并不多,所以三个系统基本上都承担了各自全部或部分内容的保存工作。arXiv和CogPrints分别由美国康乃尔大学和南安普顿大学负责保存; RePEc系统内个人用户提交的内容由RePEc负责保存,而机构用户提交的内容由各个机构负责,RePEc提供书目信息并提供链接。对于预印本系统未来的长期保存工作,三个系统基本上还没有作为重点考虑的内容。但是,三个系统都对投稿时的文章格式及提供的元数据信息作了明确的规定,这有利于预印本系统的长期保存。
3 预印本系统所面临的问题
通过上述分析,三个预印本系统的管理和建设情况可以用表1表示。从分析中我们可以得出,预印本系统建设和发展主要面临以下三方面的问题:
3.1 文章提交是预印本系统面临的首要难题
从三个系统比较中,我们可以看到物理学等的arXiv系统收录的文章数量最多,而认知学科的CogPrints记录条数只有arXiv的百分之一。总体来讲,除了理工类(特别是物理学、数学、计算机等),很多预印本系统内提交的文章数量都很有限(尤其是人文社科),部分系统因为提交量过少而停止,如CPS(ChemistryPreprint Server)。[4]这主要与学科特点密切相关,在学科发展迅速,研究内容更新速度快的研究领域,例如:物理学、数学、计算机科学等,预印本系统运行较好;而相对发展较慢的学科领域,如人文社科,预印本系统运行状况不理想。
预印本系统可以从自身和用户两方面着手解决此问题:(1)通过各种途径加大自身的宣传力度,只有让更多的人了解到预印本系统,才能发掘出更多的潜在用户。(2)加强与高校、实验室、研究所等学术机构的合作交流,获取他们的支持;因为这些机构的研究人员是预印本系统已有或潜在的用户,可以通过其所在机构的激励政策来促使他们向系统提交文章。
3.2 质量控制是预印本系统发展的瓶颈
从以上对比分析中,我们可以看出,只有arXiv通过引进新的机制来保障系统内容质量,其它两个系统基本上是文责自负。目前,很多预印本系统和后两个系统一样采取文责自负原则,缺乏必要的审核和质量控制措施,系统内文章没有经过严格的学术审核,具有很大的随意性和自由度,部分系统内容质量参差不齐,其学术价值受到质疑。对于很多的预印本系统来说,系统内文章的质量成为制约其发展的瓶颈。
许多预印本系统已经意识到了这个问题,并积极尝试新方法来进行质量控制。例如arXiv引入的认可系统起到了良好的效果,不但没有怎么增加运行成本,而且有效的控制了内容质量,其预印本被引次数呈逐年上升趋势即是最好的明证。但是,对于小型的系统来说,认可机制存在制约系统内提交文章的数量的弊端;但是小型的系统而言,可以对认可系统进行改良,适当放宽认可标准,在保证提交文章数量的前提下,尽量提高其文章质量。
3.3 长期保存是预印本系统未来所面临的问题
目前,大多数预印本系统因其建立时间不长,存储量不大,所以暂时还没有碰到保存方面所带来的困难。此外,一些专家如Stevan Harnad认为预印本系统面临的首要问题是如何促进更多的研究者向系统提交文章,而不是长期保存问题。[5]以上的因素使得许多预印本系统都没有考虑其长期保存问题,但是随着预印本系统的发展,以及其在学术领域所占据越来越重要的位置,其存储文章数量将日趋庞大,长期保存将是其未来发展所面临的难题。
目前,许多国内外学者都在研究数字资源长期保存问题。预印本系统作为新兴的非正式交流系统,是数字资源新的生力军,大可借鉴数字资源长期保存方面的研究成果,制定一套适合自己的长期保存政策、保存模式、保存技术标准等。
表1 三大系统资源建设情况
| arXiv | CogPrints | RePEc |
学科领域 | 物理学、数学、非线性科学、计算机科学、定量生物学和统计学 | 心理学、神经科学、语言学、计算机科学、哲学、医学、人类学以及与认知学相关学科 | 经济类及相关学科 |
记录数量 | 456,792篇 | 3,084篇 | 558,000条(448,000条可以下载) |
资源类型 | 以预印本为主,含少量期刊论文 | 以预印本为主,含少量图书、期刊论文、学位论文、会议录等 | 预印本、研究报告、会议录、图书、期刊论文等。 |
格式要求 | (La)TeX、AMS(La)TeX、PDFLaTeX、PDF、PostScript、HTML、JPEG、GIF、PNG[6] | HTML、PDF、Postscript、ASCII和其他格式 | PDF、Word、Microsoft WORKS document、WordPerfect_Document、TeX 、PostScript、HTML、Text、ZipFile、TarFile、TarFile.gz和其它格式[7] |
提交途径 | FTP和Email(2003年7月终止[8]),WWW界面 | FTP和Email(目前已终止),WWW界面 | WWW界面 |
质量控制 | 相对严格的审核 | 简单审核 | 简单审核 |
运行模式 | 集中和镜像模式 | 集中模式 | 分布模式 |
参考文献
1 吕世炅.预印本系统:国际学术交流的重要平台. 情报学报,2004(5)
2 张丽.国内预印本系统比较研究.中国图书馆学报,2006(4)
3 徐刘靖,张剑.电子预印本系统隐性质量控制机制研究. 图书情报工作,2007(5)
4 Preprint Archive.http://www.sciencedirect.com/preprintarchive
5 Stevan Harnad. Re: EPrints,DSpace or ESpace?http://www.ecs.soton.ac.uk/~harnad/Hypermail/Amsci/2681.html
6 To Submita Paper.http://arxiv.org/help/submit
7 PaperSubmission form for EconWPA.http://econwpa.wustl.edu/wpasubmit.html
8 arXiv monthly submission rate statistics, 31 Dec '04 .http://arxiv.org/Stats/hcamonthly.html
徐刘靖 上海大学图书馆资源建设中心助理馆员,已发文十余篇。
陶 蕾 上海大学图书馆资源建设中心馆员。
俎宇鹏 河南省驻马店市确山72506部队技术部。