国内外二次文献数据库对比研究 吴佩娟
发布时间:2018-09-25  浏览次数:204

国内外二次文献数据库对比研究

吴佩娟

(上海图书馆  200031))

 

1 二次文献概述

二次文献(secondary document)是指按照一定的原则,对一次文献进行加工、整理之后,定期出版的一种文献,如目录索引、引文索引、文摘等。二次文献的原则就是为查找一次文献提供线索,并使一次文献有序化[1]。它具有明显的汇集性、系统性和检索性,它汇集的不是一次文献本身,而是某个特定范围的一次文献线索。它的重要性在于使查找一次文献所花费的时间大大减少;它能高效率地捕捉有效信息,全面、系统地反映某个学科、专业或专题在一定时空范围内的文献线索,是积累、报道和检索文献资料的有效手段。随着信息技术的发展,利用数据库技术对某特定领域的二次文献(文摘、题录、目录等书目数据)实施管理,并以数据库形式为用户提供服务,又称为二次文献数据库,二次文献数据库包括文摘、索引、目录数据库等,CA(化学文摘)、MEDLINE(医学文献数据库)、SCI(科学引文索引)、CBM(中国生物医学文献数据库)等,是知名的二次文献数据库,它们具有数据量大,累积性强等特点,常被用于联机情报检索、定题服务、回溯检索。

我国的《全国报刊索引》、《中国社会科学文摘》、《中国物理文摘》、《中国人民大学复印报刊资料》、《中文社会科学引文索引(CSSCI)》,美国的《科学引文索引(SCI)》、《工程索引(EI)》和《化学文摘(CA)》,英国的《科学文摘(SA)》等,都是典型的二次文献数据库。本文力图通过对这些二次文献数据库的对比研究,探寻其中的规律,找出它们的共性,以更好地为建设二次文献数据库服务。

2 国内外二次文献数据库对比研究

2.1 国外二次文献数据库分析

国外二次文献数据库的建设起步较早,有许多成功的经验可供我们借鉴。随信息技术的飞速发展与因特网普及,特别是搜索引擎的使用,使得一次文献获取方式多样化,但世界知名的二次文献数据库CASCIEBSCO等,并没有因此而被淘汰,反而更加活跃地展现于世界文献信息服务市场。下面我们将以CASCIEBSCO为例,从创刊年、载体形式、收录范围、产品品种、数据库量变化、检索途径、用户分析等方面进行分析。

2.1.1  数据库简介

美国《化学文摘》(Chemical Abstracts,简称CA),创刊于1907年,由美国化学文摘服务社(CAS)编辑出版。《CA》报道了世界上150多个国家、56种文字出版的16000种科技期刊、科技报告、会议论文、学位论文、资料汇编、技术报告、新书及视听资料,还报道30个国家和2个国际组织的专利文献。其收录的文献占世界化学化工文献总量的98%,文献量50/年。它的另一个特点是出版速度快,而且索引的编排很出色,不但每期都有索引,每卷有索引,还有五年、十年累积索引,为查阅文献提供了方便。从19987月使用了计算机编排,使查阅文献更加方便,是涉及学科领域最广、收集文献类型最全、提供检索途径最多、部卷也最为庞大的一部在化学领域内权威检索工具。

EBSCO公司成立于1984年。是全球最早推出可以提供全文的在线数据库检索系统的公司之一,为用户提供了各种各样的最新文献。EBSCO的数据库所涉及的期刊既有大众性,也包含了大量专业性的期刊,数据库的数据每日更新。

该数据库分为Academic Search PremierAcademic Search EliteBusiness Source PremierRegional Business NewsEBSCO Online CitationsEric(the Educational Resource Information Center)Newspaper Source等库。EBSCO网站24小时开放,数据日更新,检索结果有目录、文摘和全文。它涵盖国际商务、经济学、经济管理、金融、会计、劳动人事、银行、工商经济、资讯科技、人文科学、社会科学、通讯传播、教育、艺术、文学、医药、通用科学等领域的期刊,其中许多期刊是被SCISSCI收录的核心刊。EBSCO数据库是由美国EBSCOhost创建的大型、综合性的文献数据库。它是由Academic SearchPremier(ASP)Busiess Source Premier(BSP)Medline等多个数据库组成。该数据库的检索方式分为初级检索和高级检索两大类。每一类下设关键词检索(keyword search)、主题检索(subject search)、出版物检索(publications search)和图像检索(Images search)四种方式。该数据库的检索结果目录中显示每一条记录的文章篇名、作者、刊名、卷期号、页数,并用三种图标显示是以HTML格式、PDF格式或图像方式提供全文。若用户具有使用权限,点击文献篇名或图标,即可看到带文摘或全文的记录。

《科学引文索引》(Science Citation Index,简称SCI),由美国科学情报研究所(Institute for Scientific Information ISI)编辑出版。1961年创刊,现为双月刊。1988SCI出版光盘,每月更新。其网络版已问世(它的网址为:http://www.isinet.com),网络版的出版使SCI检索回溯时间更长,数据更新更快。收录范围:1998年统计,SCI收录了以在英美出版为主的42个国家和地区的37种文字、3542种出版物的文献(包括图书和期刊),涉及生命科学、数学、物理、化学、农业等九十多个学科领域,录入来源文献770591条,引文17035597条。收录期刊论文、会议摘要、通信、综述、讨论以及选自《Science》、《Scientist》、《Nature》中的书评等。

2.1.2  分析

为便于进行直观对比,我们做了专门汇总,如表格所示,使各自的特色、异同醒目呈现。见表1

1  国外二次文献数据库对照表

项目

美国化学文摘(CA

EBSCO

科学引文索引(SCI

创刊年

1907

1984

1961

载体形式

印刷版、联机检索、光盘数据库、因特网检索

数据库,日更新

印刷型:双月刊,收录期刊3700

联机版:周更新,收录期刊5700

光盘版:月更新,收录期刊3700

网络版:周更新,收录期刊5700

 

 

 

 

收录范围及主要学科、专业

150多个国家、56种文字出版的16000种科技期刊、科技报告、会议论文、学位论文、资料汇编、技术报告、新书及视听资料; 30个国家和2个国际组织的专利文献。
CA》收录的文献占世界化学化工文献总量的98%,文献量50/年。

涵盖国际商务、经济学、经济管理、金融、会计、劳动人事、银行、工商经济、资讯科技、人文科学、社会科学、通讯传播、教育、艺术、文学、医药、通用科学等领域的期刊,

生命科学、数学、物理、化学、农业等九十多个学科

 

索引种类

期索引系统、卷索引系统、辅助索引、指导性索引、累积索引;资料来源索引等14种。

基本检索、向导检索、专家检索、主题检索、期刊检索

来源索引 主题轮排索引 引文索引 团体机构索引

 

检索途径

关键词、作者、化学物质、分子式、专利、普通主题词、环系索引

作者、篇名、主题、资源、摘要、引文、书号、ISSN

刊名、引文、作者、被引频次、影响因子、即年指标、总载文量、被引半衰期等

 

 

 

 

 

 

特色

1.收录范围广,报道文献量大,文献类型多;
2.
检索途径多,《CA
》共有14种索引:

3.回溯检索能力强(有10年或5年的累积索引);
4.
正文题录部分有参见系统(see),供检索者扩检

 

1、   文献来源具有权威性;

2、   数据每日更新;

3、   给用户提供了一、二次文献的联接,文献获取一体化服务;

4、   针对不同用户,提供了不同的检索方式和功能;

5、   给用户提供工商企业名录、图片和华尔街金融词典等特色检索

1.利用现代文献研究方法,发展了文献计量学。

2.可以从不同角度反映国家或个人的学术质量、载文量、学科特性和来源期刊的实际出版周期、流通使用情况等

3.文章和参考文献同时提示;

4.多载体

5.提供作者地址,便于联系;

6.选刊严格

用户群

化学化工理论和技术研究人员

公共图书馆、高校图书馆、研究型图书馆

自然科学基础理论研究人员和教师

 

从上表可以看出:国外二次文献数据库的发展相对比较成熟,表现在以下几个方面:

1收录文献全面且质量较高。收录范围广泛、全面。BBSCOSCI覆盖了社会科学和自然科学的领域,CA作为化学化工类检索工具,其收录的文献类型和种类也是最多的;多数被收录的期刊都是某一学科领域的权威期刊,质量较高;部分期刊自创刊之始收录,收录比较完整,因而回溯检索功能较强;

2数据更新速度较快,基本做到数据周更新,部分达到数据日更新,有利于用户快速获取信息;

3检索功能强大,对文献内部及其之间的知识关联提示较好。通常都支持篇目内容检索和整刊检索,提供基本检索、高级检索等;检索入口较多;在一定程度上支持自然语言检索,查全率、查准率较好,相关文献类聚检索、引文链接、知识单元间的跳转检索等在知识单元及其关联的深层揭示较好;

4服务对象明确,三个数据库都从本专业出发,从收录文献范围到检索途径的提供都有较全面而深入的研究,对一次文献的提示随着技术的发展而迎合用户的需求,是本学科领域中最有效的检索工具。

2.2 国内常见二次文献数据库分析

我们选取常用的清华同方光盘股份有限公司的《中国期刊网全文数据库》、重庆维普资讯有限公司的《中文科技期刊数据库》以及上海图书馆全国报刊索引编辑部的《全国报刊索引数据库》进行比较研究。

2.2.1  数据库简介

《清华同方中国期刊网题录数据库》由清华同方光盘股份公司开发,是中国知识基础设施主要工程(CNKI)之一。该数据库按学科分为理工A、理工B、理工C、农业、医药卫生、文史哲、政治经济法律、教育与社会科学、电子技术与信息科学9个专辑126个专题数据库。数据库收录从1994年开始的8200余种国内出版的中文期刊的全文,数据量达1000余万条,镜像站及网上数据日更新。

《中文科技期刊数据库》(题录版)由重庆维普资讯有限公司开发,收录了1989年以来的自然科学、工程技术、农业、医药卫生、经济、教育和图书情报等学科8000余种期刊刊载的660余万篇文献,并以每年100万篇的速度递增。按照《中国图书馆分类法》进行分类,所有文献被分为7个专辑:自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报。专辑又细分为27个专题。网上数据做到每周更新。

《全国报刊索引数据库》系文化部立项,上海图书馆承建的重大科技项目,《全国报刊索引》编辑部自1993年起开始研制和编辑,1995年完成并通过部级鉴定,96年获文化部科技进步二等奖、上海市文化局科技进步一等奖。它收录了全国包括港、台地区的期刊4000种左右,涉及所有哲学、社会科学、自然科学领域,是《全国报刊索引》的电子产品。数据库格式严格按照国家有关标准,其著录字段包括顺序号、分类号、题名、著者、著者单位、报刊名、卷期年月、所在页码、关键词等十项。具有学科齐全、种类繁多、信息量大、检索简便、界面友好、速度快捷的特点,年更新量在50万条左右,目前已将数据回溯至1833年,时间跨度达140多年,数据量700余万条,是新一代的信息检索数据库。网上数据做到每周更新。

2.2.2         分析

2  国内二次文献数据库对照表

项目

《清华同方中国期刊网题录数据库》

《中文科技期刊数据库》(题录版)

《全国报刊索引数据库》

收录年限

1911

1989-

1833-

载体形式

网络版每日更新,光盘每月更新(文史专辑为双月更新),专题光盘年度更新

网上周更新

网上周更新

收录范围及主要学科、专业

理工A、理工B、理工C、农业、医药卫生、文史哲、政治经济法律、教育与社会科学、电子技术与信息科学

社会科学、自然科学、工程技术、农业、医药卫生、经济、教育和图书情报等学科

哲学、社会科学、自然科学领域、工程技术等全部领域

检索途径

主题、篇名、关键词、摘要、作者、第一作者、单位、刊名、参考文献、全文、年、期、基金、中图分类号、ISSN、统一刊号等16

题名/关键词、题名、关键词、文摘、作者、机构、分类号、刊名、参考文献、前沿问题、任意字段等11

全字段、分类号、题名、作者、单位、刊名、年份、期号、基金项目、主题词摘要等11

特色

1、收录文献侧重人文、哲学及社会科学;

2、检索途径多

3、具有引文连接功能,可用于文献计量与评价;

 

1、收录文献侧重自然科学;

2、具有检索入口多、辅助手段丰富

3、数据更新较快;

4、分类体系完整。

1、学科门类齐全,收录范围广泛;

2、时间跨度大,回溯性强;

3.分类体系完整,著录格式标准化;

4、检索途径多,检索结果全面;

5、提供刊名库数据和馆藏信息设置

用户群

高等院校图书馆、公共图书馆、信息研究机构、信息咨询中心、科研院所、公司企业、医疗机构、中小学图书馆等多个领域。

高等院校图书馆、公共图书馆、信息研究机构、信息咨询中心、科研院所、公司企业、医疗机构、中小学图书馆等多个领域。

高等院校图书馆、公共图书馆、信息研究机构、信息咨询中心、科研院所、中小学图书馆等多个领域。

 

同国外同类型的数据库相比,国内二次文献数据库无论是数量还是质量,都存在一定的差距,主要表现在以下几个方面:

1数据的全面性和完整性较差。由于各个数据库有各自的侧重点,收录规则不尽相同,再加上受版权的限制,漏收现象比较严重,特别是报纸信息缺乏,不能囊括本领域的所有文献;

2检索界面不够友好,易用性有待进一步改进。如CNKI提供了检索结果的存盘功能,但存盘的提示符不明显,存盘没有提示路径,这一点EBSCO的存盘处理方法较好;检索结果的显示缺乏人性化,不便于查看;

3数据重复、漏检、误检现象不同程度也存在;

4对文献的提示深度不够,无特色索引。CA虽然是化学化工类的专业检索工具,但在全文数据库大量出现的今天,依然能保持不变的原因之一是它的专业性及特色索引,这是国内二次文献所不及的。

3 对策与建议

通过对国内外具有代表性的二次文献数据库的对比研究,对于我国二次文献数据库的发展提出如下建议:

1严把质量关,打造特色精品。要提高数据库的质量,必须在数量和质量上下功夫,做到“全”、“精”。“全”即要扩大数据库的收录范围和数量,要在“全”字上做文章,要收全各学科、各专业的文献,满足用户多方面的检索需要。对《全国报刊索引数据库》而言,为提高自身的核心竞争能力,不但要收全国内出版的期刊,还要收全国内的报纸。鉴于报纸类文献的特殊性,可利用上海图书馆的优势,形成全国图书馆联盟,制定统一的收录和著录规则,邀请全国各地的图书馆参与,共同完成报纸的收录工作;“精”指要提高数据库的质量,建设二次文献数据库是一个系统工程,也是一项仔细、认真、耗费脑力的工作,稍有疏忽就可能造成数据的错误,给用户造成麻烦,降低查全和查准率。应在输入、校对、标引、数据处理上严把质量关,努力打造富有特色的数据库精品。

2进一步增强文献标引深度。标引深度是衡量一个数据库查全、查准的重要尺度,也是检索工具质量品质的保证。要在原分类、题名、作者、出处、年份、主题词等基础上,对文献进行更深层次的揭示,如析出文献的新观点、新方法和新思路,并指出文章的创新点,这将有助于检索者的选择,给读者带来方便。

3注重和加强文献内容的深层开发,揭示文献内部、文献之间的知识关联,实现有效的知识揭示,如进一步揭示文献的知识单元、知识关联及文献间的多维关联等;同时,增强二次文献数据库对报刊论文的评价筛选功能,使数据库的加工深入到论文的知识层,把论文中精华的部分(用户最需要查到的部分)揭示出来,大大提高二次文献的利用价值。

4建立快速、方便、廉价的传递服务通道。传递服务的快捷、方便、廉价直接关系到二次文献数据库的生存和发展,网络版环境形式的日趋完善对用户查找文献资料方式的影响很大,全文数据库与索引数据库之间竞争激烈,后者的优势是价格,必须再加上传递服务的快捷、方便,才能赢得用户的青睐。具体而言,可利用现代信息技术,建立网络平台,建立在线索取原文,弥补无全文的缺憾。

5加快数据库更新速度。信息传递迅速,及时报道学术研究新成果、新动态,是二次文献数据库必须做到的另一优势。目前的二次文献数据库,由于生产技术和管理的问题,更新速度较慢,未来的二次文献数据库,应实现网络的实时更新。

6与著名的搜索网站合作,扩大数据库的知名度。如GOOGLE、百度等搜索网站,以其快捷、方便在全世界拥有数以万计的用户,与他们合作,可使更多的读者了解和使用二次文献数据库,再通过链接技术由编辑者提供原文,扩大二次文献数据库的海外知名度,使数据库的用户群从图书馆、机构扩展到个人,从而把读者重新引入图书馆。

网络时代,人们对二次文献数据库提出了更高的要求。二次文献数据库的建设,既要适应文献载体形式的变化,也应符合人们对所用文献的了解认知、心理适应和使用习惯,要以社会需求为建设目的,充分发挥二次文献在揭示文献上的作用,为文献利用提供便利。

 

参考文献

1 中国大百科全书:情报学部分�北京:华夏出版社,1990442

2 张琪玉�现代索引就是数据库�中国索引,20031

3 张宇红�国内五大光盘数据库系统的比较�中国信息导报,20004

4 林健�要重视二次文献的开发和利用�中国信息导报,20039

5 陈成桂,胡安朋�美国《化学文摘》的发展变化历程――美国《化学文摘》创刊95周年述评(上)�情报理论与实践,2003265

6 张晓芬EBSCO网络数据库综合评价�现代图书情报技术,20006

7 姜继红,陈少川EBSCO网络全文数据库介绍�青岛大学学报,2003162

8 包月英SCI检索方法及其应用�安庆师范学院学报,200394

 

吴佩娟  女,上海图书馆《全国报刊索引》编辑部主任,副研究馆员。