近十年国内信息检索工具比较研究综述
刘 丹
(华东师范大学商学院信息学系 上海200062)
摘 要 自1997至2006年间发表的有关检索工具比较研究文献中选取最具代表性的130篇文献,对其进行细致的分类,分析该领域的研究方法,揭示比较研究的现状,展示近十年间的研究成果和发展情况;最后分析出目前存在的不足之处并提出改进建议,为今后检索工具比较研究的发展指出方向。
关键词 检索工具 比较研究 综述
伴随着信息海量时代的到来和检索工具数量的日益增多,近年来对于信息检索工具的比较研究发展得比较迅速。因此在过去的十年间,这一领域的研究数量也出现了较大增长并且产生了一些新的趋势和特征。下文中作者就对这一时期内的研究状况做一分析比较。
1 研究目的
本文针对这一时间跨度内的研究情况进行较为详细的分析和总结,目的在于一方面可以总结过去近十年间在信息检索工具比较研究这一领域内的发展状况,揭示出其发展趋势,另一方面,通过概括和分析,指出目前研究中可以改进的方向,为今后检索工具比较研究的发展提供指导和参考。
2 研究方法
2.1 研究对象获取
关于检索工具的比较研究文献,目前还主要集中为各类学术期刊上的发表论文。成体系的书刊还比较少。因此作者在研究对象的选择上从现有的公开期刊上入手,以中国期刊网和维普网为入口,以“检索工具”、“检索系统”、“数据库”为关键词,搭配“检索比较+比较”,进行布尔逻辑检索,分别得到了1997-2006年间的138和115篇发表文献[1],经过人工去重和对不相关(低相关)文献的剔除,最终选取了最有代表性的130篇期刊发表论文作为本次研究的对象。
2.2 研究方法确定
目前检索工具比较研究还没有统一的或成体系的研究方法。另外,由于人们所使用的检索工具分类方法较多,从检索办法可分为手工检索工具和计算机检索工具;从摘录方式分为目录、题录或索引、文摘、全文;从载体形式又可以分为印刷版、光盘检索工具、网络数据库、数字图书馆、电子期刊等等。而且还有越来越多的搜索引擎、门户网站和专业网站等。对于这么多种不同类型检索工具的比较研究,其侧重点和使用的方法也会有所不同,很难一并概括,因此,作者在宏观掌握这些论文的研究内容的基础上,在下文中将对具体的研究情况进行分类研究。
具体地讲,作者将这些论文按照其研究的检索工具性质和内容,大致分为以下几个研究方向:综合大型检索工具比较;专业检索工具比较研究;网络检索工具比较研究;不同检索形式的检索工具的比较研究(手工检索、光盘检索和网络检索工具等)等等。可以说,这样分类虽然可能会重复涉及到对含有两个(及以上)分类特征的检索工具的比较研究,但是却能够全面地覆盖几乎所有的相关文献,揭示更为详细的研究状况。下面本文就将分别对各个类别的文献的研究方法及成果进行介绍并归纳总结,展示目前信息检索工具比较研究的研究发展情况。
3 研究对象总体情况
3.1 内容分布
这130篇发表论文,研究内容各有交叉,从分类上涉及到专业检索工具比较、综合检索工具比较、网络检索工具、光盘检索工具比较等等,当然这些概念可以是交叉的,比如可以是网络专业检索工具或综合数据库光盘检索等等。具体的分布有以下几种趋势:
(1)综合检索工具比较共56篇,占总体的43.1%,是检索工具比较中的最大类;专业检索工具比较居次席36篇,占总体的27.7%。
(2)网络检索工具比较比重越来越大,共49篇,占总体的37.7%。其中搜索引擎就有27篇(20.77%),并且集中出现在2000年之后。
(3)相对应地,光盘检索比较的相关论文21篇,占总体的16.15%,并且主要集中在2003年之前。
3.2 年度分布
在笔者挑选的文献中,1997-2006十年内的年度分布(如下图),可以看到检索工具比较研究的论文分布在近十年里有比较大的增长趋势,最少的年份2篇、最高的年份恰好是2006年的23篇,这个局部缩影即可在一定程度上反映出论文数量的增长。
4 研究对象内容分析
4.1 综合检索工具比较研究
综合型检索工具主要是指涵盖了众多学科、分支,收录大量期刊、论文、引文等资料的大型检索工具。比如《中国期刊网》、《社会科学引文索引》等等。目前涉及综合型检索工具比较研究的论文数量相对较多。这类检索工具的研究方法基本上是选取具有相似性质的对象,在期刊来源、学科范围、检索方法、辅助功能、检索结果等方面全面逐一对比。也有文章涉及到检索工具的某一具体检索功能,就这一功能的检索性能、检索结果等进行比较。
全面分析对比的文章属于多数,本文研究的51篇论文也基本涵盖了目前具有较大规模的各种综合检索工具,而且还包含了综合性数据库的网络版、光盘版等各个版本。吕青的《简述网上三大检索工具》[2]、李军英等的《国内两大全文电子期刊数据库的比较与分析》[3]、曹志梅等的《我国四大引文数据库比较分析》[4]中分析了《中国社会科学引文索引》、《中国科学引文数据库》、《中国科技论文引文分析数据库》、《中国期刊网专题全文数据库》、《中文科技期刊全文数据库》、《中文社会科学引文索引》、《中国学术期刊全文数据库》等规模和使用率均列国内前茅的检索工具。
在研究对象上基本都包含了检索工具简介、收录期刊(核心期刊)数量、涵盖学科范围比较。同时均介绍了各个检索工具的检索入口、支持的检索字段和各自适用的环境和查询要求。这类对比得出的结论通常对于一般的工具使用者,尤其是入门使用者具有一定指导作用,比如:通过对比后得出“查全率”,《中国期刊网专题全文数据库》要优于《中文科技期刊全文数据库》;如使用者需要通过期刊名称导航进入系统查询,则《中文科技期刊全文数据库》是更好的选择;《中国学术期刊全文数据库》相比同类引文数据库而言提供的检索入口相对较弱等等。总的来说,这类研究涉及到了综合性数据库整体使用的方方面面,初步使人们直观了解各个检索工具的使用方法和各自检索、收录的侧重点。
通过对51篇综合检索工具比较论文的研究,作者发现在具体功能对比方面,目前完成的研究中出现了一些有质量和见解的文章。这里举出陆一、孔进发的《同方万方维普全文期刊数据库网上引文检索的比较》[5]和康美娟、王晋生的《DIALOG光盘数据库两种检索系统服务方式的比较》[6]为例,前者比较了三个数据库的收录年限、更新情况、文章数量、不同检索方法得出的检索结果数量,得出了“同方引文检索方便、效率较高”的结论,并提出了数据库引文索引目前还存在的漏洞和不足;后者详细列举了在DIALOG两个系统中运用位置算符调整检索结果时各种算法的表示方式,这类研究对于有特定搜索需求的用户是很有意义的,因为涉及到具体的举例说明和检索字段的表达。当用户提出了某种类似的检索需求,那么关于各个检索工具在这一具体功能上的细致比较,可以很快地帮助用户选择一个合适的检索工具。这种细致的研究,带来的作用显然比笼统的罗列介绍要大,这与该类研究目前的稀少数量形成了很大的对比。
4.2 专业检索工具比较研究
目前关于各个具体学科专业的检索工具比较研究,总体来讲还是比较少的。一方面是数量上少,虽然在本次查阅的发表论文中,各学科专业检索工具比较占据了总体的30.4%,但各个专业学科都拥有一定数量的专业检索工具,有的甚至还比较多,各个检索工具之间的比较研究实际上还没有全面开展。另一方面,现有专业检索工具研究涉及的学科专业范围比较狭窄,作者在资料搜集过程中发现已有研究文献的学科几乎仅仅涉及到生物、化学、农业和医学,十分不全面。
从研究方法看,一般都是首先选取具有代表性或符合研究题目的学科专业检索工具。具有代表性的两种选取方法一种是手工和计算机、网络数据库检索工具之间横向比较,如李纯芳、李凤英等在《中文医学检索工具使用比较研究》[7]中选取了几个手工检索工具和计算机检索工具,先在手工和计算机这两个范围内分别进行各自比较,揭示出各个手工和计算机检索工具的优劣,然后再从总体上比较手工和计算机两大类检索工具,并提出发展建议。这类比较的意义在于把一个专业内的手工检索和计算机检索工具都进行了分析,揭示了各种检索工具之间的互相补足关系和差异,比如作者在文中的结论:在使用手工检索工具时《医学论文累计索引》(1949-1979)虽然时间上有些滞后了,但却能补足《中文科技资料目录:医药卫生》前期收录的不足;《中文生物医学期刊数据库》相对于《中国生物医学文献光盘数据库》而言利用率高、检索功能强大,但是后者更新快、收录期刊品种齐全。这样就可以很好地引导使用者来利用检索工具,鼓励手工、计算机检索两种方法都使用,以达到尽可能的查全。
另外一种比较就是范围更细的专业网络数据库检索工具比较,王利亚在《试评CA和CPI的专利文献报道与检索功能》[8]、彭勇在《Internet上三大检索工具检索化学化工信息的方法》[9]中,就是选取了具有代表性的EI(工程索引)的化学部分、ISTP(科技会议录索引)、SCI(科学引文索引)、CA(化学文摘)、CPI(化学专利索引)等进行比较研究。大体上是从文摘质量、收录范围、出版历史、检索界面、检索方法、检索功能、检索结果等方面进行了比较。这种比较就很详细,包含了选择检索途径、输入检索式、辅助检索限制条件等操作细节。并且最后都能得出比较详细的使用建议,比如EI等英文检索工具,作者提供了详细的查询步骤、检索符运用、检索结果处理等环节的方法,这对于不熟悉外文数据库查询的普通使用者而言是十分有效的帮助。另外,其研究结果还有助于在检索前对于检索工具的选择,比如上述第一篇论文就指出在报道同族专利上CA更完善,而CPI支持从申请号查询专利号等各个检索工具的优势和不足,使对应的用户直接能选择合适自己检索需求的检索工具。
总的来说,专业范围内的检索工具比较是内容比较丰富的,涉及个别几个学科内的众多专业检索工具,研究已经一定程度上提供了对这些检索工具的全面分析,提供了一些提高检索效率和合理选择工具的方法。
4.3 网络搜索工具比较研究
这里主要是各种专门搜索引擎和大型门户网站提供的搜索工具。随着Google、百度等搜索引擎的迅速普及和巨大成功,搜索引擎,甚至包括门户网站的搜索工具成为大多数互联网用户使用最多、最频繁的检索工具。因此,目前在检索工具比较研究中,对于各种网络检索工具的研究也比较多,主要可以分为以下几个方向:
一是国内外著名或常用搜索引擎综合比较。涉及的对象是百度、搜狐、网易、Google、AltaVista等等。对国内中文搜索引擎分析的,罗敏在《网络中文搜索引擎的比较研究》[10]中先阐述了中文搜索引擎的内码、分词的特点以及评价标准,然后从适应范围、检索功能、查询方式、中文编码方式、特色信息服务等方面对搜索引擎进行了比较,得出了对Google、天网、网易、搜狐、FM365、悠游、新浪等几大搜索引擎的评价结论,比如搜狐适用于简单查询、Google更新慢不适用于查询最新等等,并提出了发展专题性搜索引擎、研究开发中文信息处理技术等发展建议。关于中外或国外搜索工具比较分析,魏蔚在《中外搜索引擎比较研究》[11]重点介绍了“AltaVista”、“Opentext”、“Infoseek”、“Lycos”等7大外文搜索引擎的特别功能,中外搜索引擎的比较结果,分析了中文搜索引擎在响应速度、查询方式、软件设计、搜索引擎相关度等方面的不足,提出了要大力发展搜索结果表现、搜索向导和行为分析等技术的结论。
二是按照对网络检索工具进行的科学分类来对比研究,因为网络检索工具并非只有搜索引擎,从编制原理和检索方式来看,还可以分为网络指南、搜索引擎和元搜索引擎。在《网络检索工具的发展与应用》[12]一文中,蔡东宏就从这三个分类分别介绍了其技术原理、功能特点,并做了列表比较。另外,作者还将检索工具分为专业工具和混合性检索工具进行特点和功能实例的罗列,使人们从功能上了解各种目前实际中可能遇到的网络检索工具。
第三种则是有关专业搜索引擎的研究,指的是属于具体学科范围内的专业搜索引擎。目前涉及的学科范围还比较小,主要是生物医学类,乔中等在《英特网上医学专业搜索引擎》[13]、夏旭、方平在《WWW网络生物医学信息资源搜索引擎的比较研究》[14]中就列举了有关医学方面的专业搜索引擎,进行了代表性的检索提问设计,对各个搜索引擎进行了相关性、重复性、新颖性、检索测试无效链接,统计数据采样处理,并罗列了分析结果。其研究结果对于目前专业搜索引擎的改进提出了很多实际的建议,指导用户联合使用专业搜索引擎、通用搜索引擎和元搜索引擎,以实现专业信息检索的最好效果。
4.4 采用不同检索形式的检索工具的比较研究
这里主要指的是手工检索、计算机检索(光盘检索和数据库检索)之间的比较。这种比较既有笼统的概念性的比较,也有某一具体检索工具的详细比较,但由于目前手工检索和光盘检索由于使用上、数量、条件上的限制,已经不属于人们应用得最多的检索工具类型,因此总的文献数量也不多。
手工检索和计算机检索的比较现在大多只存在于对专业、学科检索工具进行对比研究时,作为对比的一部分出现,在胡春芳的《中文农业检索工具的比较分析》[15]以及前面提到过的《中文医学检索工具使用比较研究》,都是在专业学科的检索工具比较时,进行了手工检索与计算机检索的对比。前者是对中文农业的手工检索工具和数据库检索工具分别做了介绍和应用分析;后者是不仅作了介绍解析,还两者相互比较,发现不足和互补之处。因为大家都普遍认识到计算机检索工具目前发展的不完善,手工检索被完全取代还不是短期内可能实现的,所以其结论都认为目前应该是两类检索工具都应该得到改进,手工检索工具在缩短报道周期、提高刊行速度、完善索引体系、增加检索途径等方面应该下番功夫;而解决录入误差、完善标引规范和同义词库选词,则是提高数据库检索效率所必须实现的。
光盘检索同数据库、网络检索工具的比较研究也占了一定数量。代表性的有:李桂方、王平的《MEDLINE数据库网上检索与MEDLINE光盘检索比较研究》[16]、韩改样的《光盘数据库与internet文献信息检索比较分析》[17]等都是属于针对某一具体对象(支持两种检索方式的)进行的比较。作者一般都是对检索系统的基本检索、高级检索、检索途径、附加检索、收录范围、结果显示、特色服务等等功能进行介绍和对比,并总结二者的优缺点和互补性,相互对比的结果是显示出了各种检索工具在具体方面的优势,可以为正好需要这种功能的用户提供方便。至于不足之处,则需要二者进行优势互补、相互促进,目前这两种检索工具都还不可能相互取代而是继续共存的。
5 研究结论
以上就是作者对近几年检索工具比较研究情况的一个大致的分类阐述,较为详细地介绍了研究者的思路和比较方法以及其结论,对于近十年来检索工具比较研究的一个总体情况,在这里简单地概括一下:
近年来的比较研究涉及的范围比较全面,对众多综合性、专业性检索工具(包含了从手工到联机检索、从中文到外文)、网络搜索工具进行了广泛的比较,几乎将检索工具的历史、收录范围情况直至具体的检索结果、检索运算符都有进行对比分析。通过研究分析,向读者展示了众多检索工具的使用特点,揭示了目前检索工具发展中的不足和改进的建议和方向。
尤其是一部分比较好的文章,其研究结果较为深入地关注了具体检索使用中的查全、查新率,甚至相关性、更新度等指标,详细地分析了具体的使用方法并向用户提供了指导。这些都无疑将对检索工具今后的发展有一定帮助,也对检索工具的使用者起到了实际而有效的指导。
当然,从上文的一系列罗列介绍,结合作者阅览大量已有的研究文献,也发现了目前存在于检索工具研究中的不足之处,主要有以下几点:
(1)研究过于宽泛。目前还是有一部分研究比较对象都过于笼统,没有细化到具体检索工具的使用比较。对于一个大概念(诸如光盘检索与手工检索)的比较分析已经不再具有实际的指导、参考价值。对检索工具使用者而言,具体的每一种检索工具在使用中的功能、特性、相互之间的差别、每一种检索功能的使用效果才是更重要的。
(2)专业领域范围窄。目前人们对于专业检索工具的使用量在不断增大,由于不同的专业学科有各自的、数量多少不一、构架各异的专业检索工具,根据目前的情况,比较研究还仅仅涉及到了农业、医学、化学和生物等几个学科,涉及面远远不够广。
(3)比较分类模糊。目前的研究部分存在着分类模糊的问题。如在进行专业学科检索工具比较时,选取检索工具的依据不清楚,没有详细定义,结果各种不同摘录方式、检索原理、相互可比性不是很高的全文、文摘、引文检索工具都混在一起比较,这样使得比较结果的指导性不高。
(4)在进行具体比较研究中,有待更加细致。有部分研究仅仅简单介绍检索工具的整体情况、数据来源、有什么检索方式、提供什么特色服务等等,实际指导作用不高。
通过以上研究分析,作者认为,要想更好地开展检索工具比较研究,今后的检索工具比较研究还应该在现有成绩上,对以上提到的四个方面再下功夫,这样才能够更好地推动检索工具的发展并为检索用户提供更科学详细的服务。
参考文献
1 检索结果截至2007年4月30日对中国期刊网及维普网的检索,为本文所设检索词下相关性较高的检索结果。
2 吕青. 简述网上三大检索工具�现代情报,2005(4): 5-6
3 李军英,潘洁. 国内两大全文电子期刊数据库的比较与分析.图书馆学研究,2003(5): 34-37
4 曹志梅,王凯. 我国四大引文数据库比较分析.情报学报,2002,21(4): 481-485
5 陆一,孔进发.同方万方维普全文期刊数据库网上引文检索的比较.中华医学图书情报杂志,2004,13(3): 59-61
6 康美娟,王晋生.DIALOG光盘数据库两种检索系统服务方式的比较.情报科学,2004,22(7): 833-835
7 李纯芳,李凤英,谈伟文.中文医学检索工具使用比较研究.农业图书情报学刊,2004,15(5): 68-70
8 王利亚.试评CA和CPI的专利文献报道与检索功能.情报探索,1999,9(3): 44-46
9 彭勇.Internet上三大检索工具检索化学化工信息的方法.安徽化工,2003(4): 53-55
10 罗敏�网络中文搜索引擎的比较研究.河南图书馆学刊,2002,24(3): 110-112
11 魏蔚.中外搜索引擎比较研究.黄冈职业技术学院学报,2003,5(4):91-93
12 蔡东宏.网络检索工具的发展与应用.情报科学,2004(12): 1515-1518
13 乔中,周林,陈昌鑫.英特网上医学专业搜索引擎.医学信息,2001,14(1): 10-11
14 夏旭,方平.WWW网络生物医学信息资源搜索引擎的比较研究.医学信息,2001,14(1): 7-8
15 胡春芳.中文农业检索工具的比较分析.农业图书情报学刊,2005,17(3): 164-166
16 李桂芳,王平.MEDLINE数据库网上检索与MEDLINE光盘检索比较研究.大学图书情报学刊,2001(2): 44-46
17 韩改样.光盘数据库与internet文献信息检索比较分析.情报杂志,1999,18(1): 41-43
刘 丹 1984年生,华东师范大学商学院信息学系硕士研究生,研究方向:经济信息。