国内外二次文献数据库对比研究
吴佩娟
(上海图书馆上海科技情报研究所 200031)
1 二次文献概述
二次文献(secondarydocument)是指按照一定的原则,对一次文献进行加工、整理之后,定期出版的一种文献, 如目录索引、引文索引、文摘等。二次文献的原则就是为查找一次文献提供线索,并使一次文献有序化[1]。它具有明显的汇集性、系统性和可检索性,它汇集的不是一次文献本身,而是某个特定范围的一次文献线索。它的重要性在于使查找一次文献所花费的时间大大减少;它能高效率地捕捉有效信息,全面、系统地反映某个学科、专业或专题在一定时空范围内的文献线索,是积累、报道和检索文献资料的有效手段。随着信息技术的发展,利用数据库技术对某特定领域的二次文献(文摘、题录、目录等书目数据)实施管理,并以数据库形式为用户提供服务,又称为二次文献数据库,二次文献数据库包括文摘、索引、目录数据库等。CA(化学文摘)、MEDLINE(医学文献数据库)、SCI (科学引文索引)、CBM(中国生物医学文献数据库)等, 是知名的二次文献数据库,它们具有数据量大,累积性强等特点,常被用于联机情报检索、定题服务、回溯检索。
我国的《全国报刊索引》、《中国社会科学文摘》《中国物理文摘》《中国人民大学复印报刊资料》《中文社会科学引文索引(CSSCI)》,美国的《科学引文索引(SCI)》《工程索引(EI)》和《化学文摘(CA)》,英国的《科学文摘(SA)》等,都是典型的二次文献数据库。本文力图通过对这些二次文献数据库的对比研究,探寻其中的规律,找出它们的共性,以更好地为建设二次文献数据库服务。
2 国内外二次文献数据库对比研究
2.1 国外二次文献数据库分析
国外二次文献数据库的建设起步较早,有许多成功的经验可供我们借鉴。随信息技术的飞速发展与因特网普及,特别是搜索引擎的使用,使得一次文献获取方式多样化,但世界知名的二次文献数据库CA,SCI,EBSCO等,并没有因此而被淘汰,反而更加活跃地展现于世界文献信息服务市场。下面我们将以CA、SCI、EBSCO为例,从创刊年、载体形式、收录范围、产品品种、数据库量变化、检索途径、用户分析等方面进行分析。
2.1.1 数据库简介
美国《化学文摘》(Chemical Abstracts,简称CA),创刊于1907年,由美国化学文摘服务社(CAS)编辑出版。《CA》报道了世界上150多个国家、56种文字出版的16000种科技期刊、科技报告、会议论文、学位论文、资料汇编、技术报告、新书及视听资料,还报道30个国家和2个国际组织的专利文献。其收录的文献占世界化学化工文献总量的98%,文献量50万/年。它的另一个特点是出版速度快,而且索引的编排很出色,不但每期都有索引,每卷有索引,还有五年、十年累积索引,为查阅文献提供了方便。从1998年7月使用了计算机编排,使查阅文献更加方便,是涉及学科领域最广、收集文献类型最全、提供检索途径最多、部卷也最为庞大的一部在化学领域内权威检索工具。
EBSCO公司成立于1984年。是全球最早推出可以提供全文的在线数据库检索系统的公司之一,为用户提供了各种各样的最新文献。EBSCO的数据库所涉及的期刊既有大众性,也包含了大量专业性的期刊,数据库的数据每日更新。
该数据库分为Academic Search Premier、Academic Search Elite、Business Source Premier、Regional Business News、EBSCO Online Citations、ERIC(即the Educational Resource Information Center)和Newspaper Source等库。EBSCO网站24小时开放,数据日更新,检索结果有目录、文摘和全文。它涵盖国际商务、经济学、经济管理、金融、会计、劳动人事、银行、工商经济、资讯科技、人文科学、社会科学、通讯传播、教育、艺术、文学、医药、通用科学等领域的期刊,其中许多期刊是被SCI与SSCI收录的核心刊EBSCO数据库是由美国EBSCOhost创建的大型、综合性的文献资料库。它是由Academic Search Premier (ASP)、Business Source Premier (BSP)、Medline等多个数据库组成。该数据库的检索方式分为初级检索和高级检索两大类。每一类下设关键词检索(keyword search)、主题检索(subject search)、出版物检索(publications search)和图像检索(Images search)四种方式。该数据库的检索结果目录中显示每一条记录的文章篇名、作者、刊名、卷期号、页数,并用三种图标显示是以HTML格式、PDF格式或图像方式提供全文。若用户具有使用权限,点击文献篇名或图标,即可看到带文摘或全文的记录。
《科学引文索引》(Science Citation Index,简称SCI),由美国科学情报研究所(Institute for Scientific Information ISI)编辑出版。1961年创刊,现为双月刊。1988年SCI出版光盘,每月更新。其网络版已问世(它的网址为:http:// www.isinet.com),网络版的出现使SCI检索回溯时间更长,数据更新更快。收录范围:1998年统计,SCI收录了以在英美出版为主的42个国家和地区的37种文字、3,542种出版物的文献(包括图书和期刊),涉及生命科学、数学、物理、化学、农业等九十多个学科领域,录入来源文献770,591条,引文17,035,597条。收录期刊论文、会议摘要、通信、综述、讨论以及选自《Science》、《Scientist》、《Nature》中的书评等。
2.1.2 分析
为便于进行直观对比,我们做了专门汇总,如表格所示,使各自的特色、异同醒目呈现。见表1
表1 国外二次文献数据库对照表
项目 | 美国化学文摘(CA) | EBSCO | 科学引文索引(SCI) |
创刊年 | 1907 | 1984 | 1961 |
载体形式 | 印刷版、联机检索、光盘数据库、因特网检索 | 数据库,日更新 | 印刷型:双月刊,收录期刊3700种 联机版:周更新,收录期刊5700种 光盘版:月更新,收录期刊3700种 网络版:周更新,收录期刊5700种 |
收录范围及主要学科、专业 | 150多个国家、56种文字出版的16000种科技期刊、科技报告、会议论文、学位论文、资料汇编、技术报告、新书及视听资料; 30个国家和2个国际组织的专利文献。 《CA》收录的文献占世界化学化工文献总量的98%,文献量50万/年。 | 涵盖国际商务、经济学、经济管理、金融、会计、劳动人事、银行、工商经济、资讯科技、人文科学、社会科学、通讯传播、教育、艺术、文学、医药、通用科学等领域的期刊, | 生命科学、数学、物理、化学、农业等九十多个学科 |
索引种类 | 期索引系统、卷索引系统、辅助索引、指导性索引、累积索引;资料来源索引等14种。 | 基本检索、向导检索、专家检索、主题检索、期刊检索 | 来源索引 主题轮排索引 引文索引 团体机构索引 |
检索途径 | 关键词、作者、化学物质、分子式、专利、普通主题词、环系索引等 | 作者、篇名、主题、资源、摘要、引文、书号、ISSN等 | 刊名、引文、作者、被引频次、影响因子、即年指标、总载文量、被引半衰期等 |
特色 | 1.收录范围广,报道文献量大,文献类型多; 2.检索途径多,《CA》共有14种索引: 3.回溯检索能力强(有10年或5年的累积索引); 4.正文题录部分有参见系统(see),供检索者扩检。 | 1、 文献来源具有权威性; 2、 数据每日更新; 3、 给用户提供了一、二次文献的联接,文献获取一体化服务; 4、 针对不同用户,提供了不同的检索方式和功能; 5、 给用户提供工商企业名录、图片和华尔街金融词典等特色检索 | 1.利用现代文献研究方法,发展了文献计量学。 2.可以从不同角度反映国家或个人的学术质量、载文量、学科特性和来源期刊的实际出版周期、流通使用情况等 3.文章和参考文献同时提示; 4.多载体 5.提供作者地址,便于联系; 6.选刊严格 |
用户群 | 化学化工理论和技术研究人员 | 公共图书馆、高校图书馆、研究型图书馆 | 自然科学基础理论研究人员和教师 |
从上表可以看出:国外二次文献数据库的发展相对比较成熟,表现在以下几个方面:
(1) 收录文献全面且质量较高。收录范围广泛、全面。EBSCO、SCI覆盖了社会科学和自然科学的领域,CA作为化学化工类检索工具,其收录的文献类型和种类也是最多的;多数被收录的期刊都是某一学科领域的权威期刊,质量较高;部分期刊自创刊之始收录,收录比较完整,因而回溯检索功能较强。
(2) 数据更新速度较快,基本做到数据周更新,部分达到数据日更新,有利于用户快速获取信息;
(3) 检索功能强大,对文献内部及其之间的知识关联揭示较好。通常都支持篇目内容检索和整刊检索,提供基本检索、高级检索等;检索入口较多;在一定程度上支持自然语言检索,查全率、查准率较好,相关文献类聚检索、引文链接、知识单元间的跳转检索等在知识单元及其关联的深层揭示较好;
(4) 服务对象明确,三个数据库都从本专业出发,从收录文献范围到检索途径的提供都有较全面而深入的研究,对一次文献的揭示随着技术的发展而迎合用户的需求,是本学科领域中最有效的检索工具
2.2国内常用二次文献数据库分析
我们选取常用的清华同方光盘股份有限公司的《中国期刊网全文数据库》、重庆维普资讯有限公司的《中文科技期刊数据库》以及上海图书馆全国报刊索引编辑部的《全国报刊索引数据库》进行比较研究。
2.2.1数据库简介
《清华同方中国期刊网题录数据库》由清华同方光盘股份公司开发,是中国知识基础设施主要工程(CNKI)之一。该数据库按学科分为理工A、理工B、理工C、农业、医药卫生、文史哲、政治经济法律、教育与社会科学、电子技术与信息科学9个专辑126个专题数据库。数据库收录从1994年开始的8200余种国内出版的中文期刊的全文,数据量达1000余万条,镜像站及网上数据日更新。
《中文科技期刊数据库》(题录版)由重庆维普资讯有限公司开发,收录了1989年以来的自然科学、工程技术、农业、医药卫生、经济、教育和图书情报等学科8000余种期刊刊载的660余万篇文献,并以每年100万篇的速度递增。按照《中国图书馆分类法》进行分类,所有文献被分为7个专辑:自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报。专辑又细分为27个专题。网上数据做到每周更新。
《全国报刊索引数据库》系文化部立项,上海图书馆承建的重大科技项目,《全国报刊索引》编辑部自1993年起开始研制和编辑,1995年完成并通过部级鉴定,96年获文化部科技进步二等奖、上海市文化局科技进步一等奖。它收录了全国包括港、台地区的期刊4000种左右,涉及所有哲学、社会科学、自然科学领域,是《全国报刊索引》的电子产品。数据库格式严格按照国家有关标准,其著录字段包括顺序号、分类号、题名、著者、著者单位、报刊名、卷期年月、所在页码、关键词等十项。具有学科齐全、种类繁多、信息量大、检索简便、界面友好、速度快捷的特点,年更新量在50万条左右,目前已将数据回溯至1833年,时间跨度达140多年,数据量700余万条,是新一代的信息检索数据库。网上数据做到每周更新
2.2 .2分析
表2 国内二次文献数据库对照表
项目 | 《清华同方中国期刊网题录数据库》 | 《中文科技期刊数据库》(题录版) | 《全国报刊索引数据库》 |
收录年限 | 1911 | 1989- | 1833- |
载体形式 | 网络版每日更新,光盘每月更新(文史哲专辑为双月更新),专题光盘年度更新。 | 网上周更新 | 网上周更新 |
收录范围及主要学科、专业 | 理工A、理工B、理工C、农业、医药卫生、文史哲、政治经济法律、教育与社会科学、电子技术与信息科学 | 社会科学、自然科学、工程技术、农业、医药卫生、经济、教育和图书情报等学科 | 哲学、社会科学、自然科学领域、工程技术等全部领域 |
检索途径 | 主题、篇名、关键词、摘要、作者、第一作者、单位、刊名、参考文献、全文、年、期、基金、中图分类号、ISSN、统一刊号等16项 | 题名/关键词、题名、关键词、文摘、作者、机构、分类号、刊名、参考文献、前沿问题、任意字段等11项 | 全字段、分类号、题名、作者、单位、刊名、年份、期号、基金项目、主题词摘要等11项 |
特色 | 1、收录文献侧重人文、哲学及社会科学; 2、检索途径多 3、具有引文连接功能,可用于文献计量与评价; | 1、收录文献侧重自然科学; 2、具有检索入口多、辅助手段丰富 3、数据更新较快; 4、分类体系完整。 | 1、学科门类齐全,收录范围广泛; 2、时间跨度大,回溯性强; 3.分类体系完整,著录格式标准化; 4、检索途径多,检索结果全面; 5、提供刊名库数据和馆藏信息设置 |
用户群 | 高等院校图书馆、公共图书馆、信息研究机构、信息咨询中心、科研院所、公司企业、医疗机构、中小学图书馆等多个领域。 | 高等院校图书馆、公共图书馆、信息研究机构、信息咨询中心、科研院所、公司企业、医疗机构、中小学图书馆等多个领域。 | 高等院校图书馆、公共图书馆、信息研究机构、信息咨询中心、科研院所、中小学图书馆等多个领域。 |
同国外同类型的数据库相比,国内二次文献数据库无论是数量还是质量,都存在一定的差距,主要表现在以下几个方面:
(1)数据的全面性和完整性较差。由于各个数据库有各自的侧重点,收录规则不尽相同,再加上受版权的限制,漏收现象比较严重,特别是报纸信息缺乏,不能囊括本领域的所有文献;
(2)检索界面不够友好,易用性有待进一步改进。如CNKI提供了检索结果的存盘功能,但存盘的提示符不明显,存盘没有提示路径,这一点EBSCOO的存盘处理方法较好;检索结果的显示缺乏人性化,不便于查看;
(3)数据重复、漏检、误检现象不同程度地存在;
(4)对文献的揭示深度不够,无特色索引。CA虽然是化学化工类的专业检索工具,但在全文数据库大量出现的今天,依然能保持不变的原因之一是它的专业性及特色索引,这是国内二次文献所不及的;
3 对策与建议
通过对国内外具有代表性的二次文献数据库的对比研究,对于我国二次文献数据库的发展提出如下建议:
(1) 严把质量关,打造特色精品。要提高数据库的质量,必须在数量和质量上下功夫,做到“全”、“精”、即要扩大数据库的收录范围和数量,要在“全”字上做文章,要收全各学科、各专业的文献,满足用户多方面的检索需要。对《全国报刊索引数据库》而言,为提高自身的核心竞争能力,不但要收全国内出版的期刊,还要收全国内的报纸。鉴于报纸类文献的特殊性,可利用上海图书馆的优势 ,形成全国图书馆联盟,制定统一的收录和著录规则,邀请全国各地的图书馆参与,共同完成报纸的收录工作;“精”指要提高数据库的质量,建设二次文献数据库是一个系统工程,也是一项仔细、认真、耗费脑力的工作,稍有疏忽就可能造成数据的错误,给用户造成麻烦,降低查全和查准率。应在输入、校对、标引、数据处理上严把质量关,努力打造富有特色的数据库精品。
(2) 进一步增强文献标引深度 标引深度是衡量一个数据库查全、查准的重要尺度,也是检索工具质量品质的保证。要在原分类、题名、作者、出处、rrh年份、主题词等的基础上,对文献进行更深层次的揭示,如析出文献的新观点、新方法和新思路,并指出文章的创新点,这将有助于检索者的选择,给读者带来方便。
(3) 注重和加强文献内容的深层开发,揭示文献内部、文献之间的知识关联,实现有效的知识揭示,如进一步揭示文献的知识单元、知识关联及文献间的多维关联等;同时,增强二次文献数据库对报刊论文的评价筛选功能,使数据库的加工深入到论文的知识层,把论文中最精华的部分(用户最需要查到的部分)揭示出来,大大提高二次文献的利用价值;
(4) 建立快速、方便、廉价的传递服务通道。传递服务的快捷、方便、廉价直接关系到二次文献数据库的生存和发展,网络版环境形式的日趋完善对用户查找文献资料方式的影响很大,全文数据库与索引数据库之间竞争激烈,后者的优势是价格,必须再加上传递服务的快捷,方便,才能赢得用户的青睐。具体而言,可利用现代信息技术,建立网络平台,建立在线索取原文,弥补无全文的缺憾。
(5) 加快数据库更新速度。信息传递迅速,及时报道学术研究新成果、新动态,是二次文献数据库必须做到的另一优势。目前的二次文献数据库,由于生产技术和管理的问题,更新速度较慢,未来的二次文献数据库,应实现网络的实时更新。
(6) 与著名的搜索网站合作,扩大数据库的知名度。如GOOGLE、百度等搜索网站,以其快捷、方便在全世界拥有数以万计的用户,与他们合作,可使更多的读者了解和使用二次文献数据库,再通过链接技术由编辑者提供原文,扩大二次文献数据库的海外知名度,使数据库的用户群从图书馆、机构扩展到个人,从而把读者重新引入图书馆;
网络时代,人们对二次文献数据库提出了更高的要求。二次文献数据库的建设,既要适应文献载体形式的变化,也应符合人们对所用文献的了解认知、心理适应和使用习惯,要以社会需求为建设目的,充分发挥二次文献在揭示文献上作用,为文献利用提供便利。
参考文献:
[1] 中国大百科全书:情报学部分.北京:华夏出版社,1990:442
[2] 张琪玉. 现代索引就是数据库,中国索引,2003(1)
[3] 张宇红. 国内五大光盘数据库系统的比较,中国信息导报,2000(4)
[4] 林健. 要重视二次文献的开发和利用,中国信息导报,2003(9)
[5] 陈成桂,胡安朋. 美国《化学文摘》的发展变化历程--美国《化学文摘》创刊95周年述评(上),情报理论与实践,2003,26(5)
[6] 张晓芬. EBSCO网络数据库综合评价, 现代图书情报技术,2000(6)
[7] 姜继红,陈少川. EBSCO网络全文数据库介绍,青岛大学学报,2003,16(2)
[8] 包月英. SCI检索方法及其应用,安庆师范学院学报,2003,9(4)