文 摘 本文对美国银盘公司检索系统webspirs下的CABI、AGRICOLA和AGRIS三个数据库从文献收录数量、质量、语种和重复情况等方面进行比较研究,对选择订购和文献检索有一定的参考价值。
关键词 农业数据库 农业文献 文献检索 CABI AGRICOLA AGRIS
国际农业生物学文摘CABI、粮农组织农业索引AGRIS和美国农业联机检索数据库AGRICOLA是世界著名的三大农业数据库,其收录的文献涵盖农业所有学科及其相关学科,是农业科学研究和教学重要的文献源。本文对美国银盘公司检索系统webspirs下的三个数据库从文献收录数量、质量、语种和重复情况等方面进行比较研究。
1 三大数据库收录的文献量比较
采用植物、动物、饲料、肥料和灌溉五个主题词对五类有代表性农业文献进行检索,其结果见表1。
表1 三大数据库收录的五类农业文献总量 (1990-2000)
类 型 | CABI | % | AGRICOLA | % | AGRIS | % | 合计 | % |
植 物 | 590886 | 54.70 | 119091 | 11.03 | 370183 | 34.27 | 1080160 | 100 |
动 物 | 459847 | 56.88 | 37855 | 4.68 | 310805 | 38.44 | 808507 | 100 |
饲 料 | 70985 | 52.38 | 13993 | 10.33 | 50545 | 37.30 | 135523 | 100 |
肥 料 | 70919 | 57.92 | 11119 | 9.08 | 40397 | 33.00 | 122435 | 100 |
灌 溉 | 31046 | 51.55 | 7691 | 12.77 | 21485 | 35.68 | 60222 | 100 |
总 计 | 1223673 | 55.45 | 189749 | 8.60 | 793415 | 35.95 | 2206837 | 100 |
由上表数据可见CABI所收录的各类文献数量最多,达到55.45%,AGRIS其次,为35.95%,AGRICOLA最少,仅8.60%。以上是三大数据库1990-2000年数据,检索自中国农业大学图书馆银盘数据库系统。如果对该数据库系统三大数据库所收录的上述五类文献总数进行统计,则得到如下结果:CABI(1999-2001)1349559(41.50%),AGRICOLA(1984-2000)350827(10.81%),AGRIS(1975-2000)1545394(47.61%)。由于在调查的数据中AGRIS收录文献的年限远远大于CABI和AGRICOLA,因此,其文献总量超过了CABI而位居首位。由此可见,AGRIS在文献收录的系统性方面较强,而CABI在最新文献的收录方面拔得头筹。从定量的角度来看两者各有千秋,AGRICOLA则略输一筹。
2 三大数据库收录文献的语种比较
对三大数据库所收录的动物与植物文献的语种情况调查表明,其收录的文献主要为英语、法语、德语、汉语、日语、俄语、西班牙语和意大利语,这8种文献占总数的95%以上,其中英语文献数量最多,所占比例为69%到88%,其中AGRICOLA99.74%,CABI 81.07%,AGRIS 69.65%。中文文献在CABA中的占有量仅次于英语占第二位,在AGRIS和AGRICOLA中分别占第六位和第七位(见表2和表3)。
由表2可见:在三大数据库中各主要语种文献前五名分别为,CABI:英语、汉语、德语、俄语和法语,AGRICOL:英语、法语、俄语、日语和德语,AGRIS:英语、法语、德语、西班牙语和汉语。总排名顺序为:英语、德语、法语、西班牙语和汉语。
3 三大数据库文献类型比较
对三个数据库的文献类型的调查发现,三个数据库在文献类型的收录上有共性,但各具特点。如对三数据库1992-1997年所收录的有关植物与植物科学的文献调查发现,AGRIS、CABI和AGRICOLA所收录的文献中,期刊文献均占首位,其比率分别为70.43%、86.99%和90.33%(见表3)。但其他文献的收录无论从种类还是比率上均有显著的差异。如从文献收录的种类来看,AGRICOLA最多达32种,其次是AGRIS的24种,CABI最少为12种。从收录文献的主要类型来看,除期刊外,AGRICOLA主要收录单行本、书目,此外也收录一定量的会议文献,AGRIS主要收录单行本、会议文献和书目文献,也收录一定量的学位论文、地图、技术报告等,CABI收录的会议论文和图书较多,此外也收录一定量的技术报告和专利文献(见表3)。
由表3可见,各数据库所收录的文献具有一定的特色,如AGRIS的地图,CABI的图书等,从而为数据库的选择与使用提供一定的依据。
表2 三大数据库收录主要语种文献情况
数据库 | CABI | AGRICOLA | AGRIS |
学 科 | 植 物 | 动 物 | 植 物 | 动 物 | 植 物 | 动 物 |
英 语 | 484760 | 381434 | 194716 | 68817 | 419479 | 383164 |
法 语 | 13326 | 14569 | 8414 | 1894 | 35873 | 48708 |
西班牙语 | 14825 | 10640 | 2752 | 982 | 25724 | 45377 |
德 语 | 15780 | 23534 | 3889 | 1613 | 35711 | 43177 |
意大利语 | 9007 | 7643 | 317 | 73 | 9405 | 8544 |
汉 语 | 31905 | 11650 | 753 | 196 | 26610 | 15064 |
日 语 | 12905 | 6689 | 170 | 5562 | 2345 | 110318 |
俄 语 | 19179 | 10599 | 5562 | 1266 | 10318 | 11553 |
合 计 | 601687 | 466758 | 216573 | 80403 | 586571 | 565905 |
表3 三大数据库主要文献类型排序
数据库 | AGRIS | CABI | AGRICOLA |
类 型 | 文献数量 | 比率 | 排序 | 文献数量 | 比率 | 排序 | 文献数量 | 比率 | 排序 |
期刊论文 | 165006 | 70.43 | 1 | 212884 | 86.99 | 1 | 76804 | 90.33 | 1 |
会议论文 | 21148 | 9.03 | 3 | 24674 | 10.08 | 2 | 651 | 0.77 | 4 |
单 行 本 | 34598 | 14.76 | 2 | ― | ― | ― | 4261 | 5.01 | 2 |
书目文献 | 8278 | 3.53 | 4 | ― | ― | ― | 3196 | 3.76 | 3 |
图 书 | ― | ― | ― | 5528 | 2.26 | 3 | ― | ― | ― |
技术报告 | 414 | 0.18 | 6 | 1058 | 0.43 | 4 | 5 | 0.01 | 7 |
学位论文 | 3870 | 1065 | 7 | 178 | 0.07 | 6 | ― | ― | ― |
专利文献 | 80 | 0.03 | 9 | 311 | 0.13 | 5 | ― | ― | ― |
标准文献 | 104 | 0.04 | 8 | 78 | 0.03 | 7 | ― | ― | ― |
地 图 | 760 | 0.32 | 5 | ― | ― | ― | 9 | 0.01 | 6 |
辞典手册 | 32 | 0.01 | 10 | ― | ― | ― | 96 | 0.11 | 5 |
合 计 | 234290 | 100 | | 244711 | 100 | | 85022 | 100 | |
4 三大数据库文献重复情况调查
在实际使用中我们发现,三大数据库所收录的文献都存在一定程度的重复。为此,我们对该数据库文献的重复情况进行了抽样调查。调查对象为植物科学、动物科学和环境科学三个主要农业学科,每个学科选择五组词汇用布尔逻辑符and组配,对三个数据库分别进行检索,检索词限定范围为标题title,检索年限为1995-1999,然后对检索结果进行比较,其结果如下。
由表4可见,各不同学科之间的文献的重复量和重复率具有显著差别。在三个学科中动物科学重复率最高,达56.86%,其次是植物科学,30.77%,环境科学最低,仅21.98%,还不到动物科学的一半。虽然,此差异可能与所抽取的样本量较小有关,但在不同学科文献之间的重复量和重复率上存在较显著差异是显而易见的。
不同数据库中和数据库之间的文献重复量和重复率也均存在显著差异。由表4和表6可见,重复率最低的是CABI,为36%,其中与AGRICOLA重复25.48%,与AGRIS重复22.58%;其次是AGRIS为40.70%,其中与CABA重复35.18%,与AGRICOLA重复24.62%;最高的是AGRICOLA,达63.27%,其中与CABA重复53.74%,与AGRIS重复33.33%。此外三个数据库之间完全重复率也因学科与数据库有一定差异。由于三大数据库覆盖了几乎全部世界农业文献,我们可以得出结论,CABI的文献覆盖率达64%,AGRIS为59.3%,而AGRICOLA仅36.7%左右。
表4 三大数据库中不同学科文献重复情况
学 科 | CABI | AGRICOLA | AGRIS |
文献量 | 重复量 | 比率 | 文献量 | 重复量 | 比率 | 文献量 | 重复量 | 比率 |
植物科学 | 117 | 36 | 30.77 | 32 | 23 | 71.88 | 51 | 25 | 49.01 |
动物科学 | 102 | 58 | 56.86 | 66 | 52 | 78.79 | 59 | 36 | 61.02 |
环境科学 | 91 | 20 | 21.98 | 49 | 18 | 36.73 | 89 | 20 | 22.47 |
合 计 | 310 | 114 | 36.77 | 147 | 93 | 63.27 | 199 | 81 | 40.70 |
表5 三大数据库之间的文献重复情况
数据库 | CABI | AGRICOLA | AGRIS |
重复量 | 重复% | 重复量 | 重复% | 重复量 | 重复% |
CABI | ― | ― | 79 | 25.48 | 70 | 22.58 |
AGRICOLA | 79 | 53.74 | ― | ― | 49 | 33.33 |
AGRIS | 70 | 35.18 | 49 | 24.62 | ― | ― |
表6 三大数据库中各学科文献完全重复情况
学 科 | CABI | AGRICOLA | AGRIS |
文献量 | 重复量 | 比率 | 文献量 | 重复量 | 比率 | 文献量 | 重复量 | 比率 |
植物科学 | 117 | 6 | 5.13 | 32 | 6 | 18.75 | 51 | 6 | 11.76 |
动物科学 | 102 | 22 | 21.57 | 66 | 22 | 33.33 | 59 | 22 | 37.29 |
环境科学 | 91 | 6 | 6.59 | 49 | 6 | 12.24 | 89 | 6 | 6.74 |
合 计 | 310 | 34 | 10.97 | 147 | 34 | 23.13 | 199 | 34 | 17.09 |
5 结果与讨论
5.1 从三大数据库收录的文献数量来看,CABI和AGRIS较多,AGRICOLA较少;从质量来看,CABI以收录报道性文摘为主,报道-指示性文摘为辅,文献质量较高;AGRIS文摘与题录并重,辅以英、法、西班牙三种文字主题词,与前者相比也各有千秋;AGRICOLA则以题录为主,并附主题标识词,因此略逊一筹。
5.2 三大数据库收录的文献语种情况英语占大多数,其中以AGRICOLA收录的英语文献最多,CABI和AGRIS所收录的其他语种文献相对较多,体现出一定程度的国际性,其中CABI收录的汉语文献较多,AGRIS收录的法语文献较多。
5.3 三个数据库所收录的文献类型以期刊为主,但比率不同,其中以AGRIS收录的期刊文献比率最低,其收录的文献呈多样性,除期刊论文外,还包括会议论文、单行本、书目、学位论文、技术报告和地图等;CABI收录的文献种类较少,除期刊论文外,主要有会议论文、图书、技术报告和专利文献等;AGRICOLA虽然收录文献种类最多,其中90%以上是期刊论文,此外是单行本、书目文献和会议文献,其它文献如手册、词典、百科全书等参考工具书,虽然是其特色,但数量较少。
5.4 三大数据库所收录的文献都存在一定程度的重复,重复率随数据库和学科类型而异,通常在20-60%。根据抽样调查,其总体重复率约为40-50,其重复的主要部分是期刊文献,导致其重复的原因是三个数据库重复收录核心期刊的文章。从文献保障率角度出发,CAB最佳,可达65%左右,AGRIS其次,为60%,AGRICOLA最次,约40%左右。
5.5 根据以上调查,我们可以得出如下结论:虽然三大数据库各有特色,但从所收录文献的数量、质量、类型和文献满足率、保障率等方面综合评判,其排序为(1)CABI;(2) AGRIS;(3) AGRICOLA。
6 对订购数据库的一点建议
由于三大数据库在农业检索工具上的独特地位,许多重点高等院校和科研单位都订购全部或其中的一、二个。如中国农业科学院、上海交通大学和浙江大学等一些单位订购了全部三个数据库。这虽然从一定程度上提高了文献保障率,但由于三个数据库之间文献的较高的重复率,也导致了一定的资源浪费。建议一些还未订购,并打算订购上述数据库的单位,特别是经费不太宽裕的中小型单位,应根据本身需求选择其中的一到两种。在一般情况下文献需求以期刊、会议论文为主的单位,选择CABI就能满足基本的需求;除了期刊、会议论文以外,还需要学位论文、书目文献和单行本等特种文献的,可选择AGRIS;需要较高的文献满足率的,可选择CABI和AGRIS,其文献满足率可达到85%以上;当然需检索有关参考工具书,以及重点跟踪美国、加拿大等北美国家的有关农业科研进展的,AGRICOLA也是必须的。
王国龙 上海交通大学农学院图书馆电子文献信息部主任,副研究馆员
李 佩 上海交通大学农学院图书馆馆员
朱海燕 上海交通大学农学院图书馆助理馆员