德国免费网络学术资源入口――比勒费尔德学术搜索引擎(BASE)研究 赵金海
发布时间:2018-09-25  浏览次数:82

德国免费网络学术资源入口

                   ――比勒费尔德学术搜索引擎(BASE)研究

赵金海

(聊城大学图书馆  山东聊城 252059

    从理论与实践分析的角度,分析比勒费尔德大学图书馆通过对相关软件市场和搜索技术调查,选择FAST DATA SEARCH技术,研制出面向因特网免费学术资源的BASE。并对BASE产生的背景、技术实现、资料来源、检索方法、实用技术、数据结构,以及发展路程、学术地位、发展前景等进行分析。该索引注重收藏德国启蒙时期人文科学系列核心期刊类“数字藏书”和囊括“数学”领域高质量的电子资源,实现了因特网免费网络学术信息资源索取的“一体化服务”。

关键词  BASE  学术资源入口  学术文献搜索  学术搜索引擎

 

0 

伴随着数字图书馆的发展成熟与服务延伸,许多图书馆,尤其高校图书馆的传统服务并没因此终止,而是发展为集传统纸质文献和现代数字文献于一体的复合式信息服务中心。数字图书馆与专题数据库集成了本馆收藏和远程访问的数字文献数据库。由于受检索入口授权,文本格式多变,浏览工具更换,检索界面和著录格式不规范等因素的制约,令许多数字图书馆使用者望而生畏,还常被有些用户误认为图书馆仅提供辅助服务而受轻视。人们为摆脱传统服务和数字图书馆服务的束缚,寻找新的学术信息资源,面向因特网免费开放检索资源的这样一种服务便应运而生,并受到广大科研工作者的青睐。这种服务提供数字文献信息服务的窗口,是一种设计有专题数据和文献资源的门户,或是利用学术搜索引擎提供专题数字文献资源的检索入口。德国比勒费尔德大学图书馆研制的比勒费尔德学术搜索引擎 (Bielefeld Academic Search Engine,以下简称为BASEhttp://www.base-search.net/)在此背景下应运而生。该学术搜索引擎旨在挖掘因特网上免费的学术文献资源和开放学术资源,实现了网络免费学术文献资源的“一站式检索”,免费向用户提供。

1  BASE

1.1 BASE产生的历史背景

随着WWW发展与普及,“信息检索”已发展成为全球性、竞争性和商业性市场的一个重要行业,并在商业因特网搜索引擎、信息检索入口、多国出版商联机信息综合等领域涌现出系列强劲竞争选手。Googleyahoo!或微软能否在未来成为世界知识的入口?在新形势下,如不想在传统信息服务中被边缘化,图书馆势必要熟悉全球学术信息、因特网成长状况,确定应对措施,继续在新形势下求生存[1]。

实际上,各国推出功能不同、搜索范围各异的学术搜索引擎,如谷歌学术搜索(http://scholar.google.cn/)Scholar Searchhttp://scholar.google.com/),Elsevier的科学索引(http://www.scirus.com),百度搜索引擎的国学搜索 (http://guoxue.baidu.com/),德国免费学术信息检索入口Vascodahttp://www.vascoda.de/),专家个人主页搜索引擎HomePageSearch(http://hpsearch.uni-trier.de/),在线期刊搜索引擎OJOSE(Online Journal Search Enginehttp://www.ojose.com/),在线数据库检索系统cnpLINKerhttp://cnplinker.cnpeak.com/),学术因特网资源收藏INFOMIN (http://infomine.ucr.edu/),网络学术信息搜索引擎Ixquick(http://www.ixquick.com), 以及提供科学和自然科学信息的sciseek(http://www. sciseek.com/Sampl)等学术搜索工具。在众多的搜索工具中,人们公认Google是信息检索工具的首选,操作简便易行,搜索结果排列合理可靠。但为什么Google不提供更好的学术信息服务呢?原因之一就是商业目的的标引并不完全按不同数据类型和结构的要求标引,检索结果排列也都受商业利益影响,尤其竞价排名。至于检索内容方面,Google与其他商业搜索引擎都把焦点集中在看得见网络资源上,忽略了现存的百分之九十以上看不见网络专题数据库资源。

目前,各种“文献内容提供商”都旨在把联机图书馆藏书和其他学术内容展现给“索引编制者”。利用新的搜索服务,鼓励学术文献供给商(尤其图书馆)把现存“看不见”的文献编制为成员馆索引。各类型图书馆文献服务正处在由传统纸质文献向现代数字文献服务的历史的转型期。但在数字文献服务中,除利用普通搜索引擎和专题数据库外,面对极为丰富的因特网信息资源,尤其深网、看不见网等文献资源,许多搜索引擎都显得力不从心。所以,免费提供数字学术文献就发展成为当前人们最热心的,最迫切的,也是最受人们欢迎的服务。BASE就是应运而生从事这种服务的一个搜索引擎。

1.2 BASE简介

BASE隶属德国比勒费尔德大学图书馆面向因特网学术文献资源挖掘的开发项目,采用Norwegian公司邻近搜索与传输技术,把密切相关数据库主题内容与搜索引擎直接搜索的相关科学资源组合在一起,成为因特网学术资源深入挖掘的多学科搜索引擎,它提供世界范围内多学科资源的一体化搜索,可浏览不同类型的数字馆藏。最近数据统计:除印本书服务、因特网资源服务和Gutenberg DE目录工程等文献服务,已抓取了1206种学术资源,近2亿篇文献,包括免费索取开放检索资料和公共机构储存资源(包括学校自建数据库和斯特检索档案库即Leicester Research Archive资源),除极少数据仅服务于校内读者,其余全部免费)。自20051月至20093月期间,BASE标引数据种数和文献篇数进展表,概括反映了BASE的发展情况(参见图1)[2]。1  2005.12009.3 BASE标引数据和文献进展表

1.3 软件评价和技术实现

2002年初BASE项目实施前,Bielefeld大学图书馆针对软件产品市场和学术搜索引擎状况进行调查,又与Google商讨后发现,像Convera之类的因特网搜索引擎仅可作为内联网更适用;俄罗斯开放资源搜索引擎MnoGo虽有诸多优点,但在海量数据处理方面存有一定问题;挪威的Fast软件公司拥有Fast搜索引擎Alltheweb,早在2002年就成为除Google之外的先导者。该索引技术成熟,安装简便易行,甚至在实验中从未出现问题,于是他们就把该技术作为BASE的搜索技术,并把该检索作为一个索引工具的范例。强调必须遵守互动操作标准(OAIXML),倡导开发智能用户界面原型,主要收录各类型的文献(全文文本和元数据)及看得见和看不见网络资源等学术资源。

2003年夏启动该工程时,比勒费尔德大学图书馆研发核心人员由从事基于FAST数据搜索软件和蓝本软件研发小组成员组成。他们以“数学范本”(Math Demonstrator)作为实质性开始。2004年春,研究工作随着“数字藏书范本”(Digital Collections Demonstrator)的实施而逐步深入。20046月,两“范本软件”公开发行,并为比勒费尔德大学图书馆、北莱茵韦斯特伐利亚学术图书馆开展分布文献服务(VDS)打下牢固基础[3]。

1.4 资料来源

目前,越来越多从事开放检索信息资源数据库服务公司都遵守“OAI-PMH”(开放档案倡议-元数据收割机协议=Open Archives InitiativeProtocol for Metadata Harvesting),致使全球开放检索文献资源服务成为各机构竞相研发的行业,如全球开放检索期刊文献资源电子入口Open J-Gate (http://www.openj-gate.com/Search/QuickSearch.aspx),免费学术期刊和全文本Directory of Open AccessJournalshttp://www.doaj.org/),世界开放检索仓库中文文本资料实验服务OpenDOARhttp://www.opendoar.org/search.php),英国开放检索仓库全文本资料实验服务SHERPA Search(http://www.sherpa.ac.uk/repositories/sherpasearchalluk.html )和联合数字资源目录OAIster (http://www.oaister.org/)等。比勒菲尔德大学图书馆则属于众多开放检索资源服务的机构之一。在19982000年间从“数字图书馆NRW”获取的许多成功经验,设计出一个改进了现有学术搜索环境、集成所有相关资源、基于因特网信息、具有实用元数据搜索功能用户界面的图书馆入口。

BASE检索的文献资源主要从WWW上免费获得,如数学、生物学、化学、生物化学、地质学和物理学等期刊论文和电子出版物;PubMedZentralblatt MATH、馆藏和公共机构档案;标准网站和出版商提供的文献目录。20066月,BASE注册为OAI服务供应商,成为“数字存储基础设施欧洲搜索版”(DRIVER=DigitalRepository Infrastructure Vision for European Research)欧联体工程成员。BASE遵守OAI-PMH,利用“收割机”收集文献资源,使用FAST软件标引元数据。不仅可查元数据、不含或含有元数据的全文文本,也可查竞争对手的有关信息。常采用不同的搜索标准和公布现存文献结果的方法分别处理元数据,把相关数据放置于著者与类目后或提示目录中[4]。

1.5 检索方法

BASE具有德语和英语用户界面,支持欧洲诸国22种语言,提供基本检索(BasicSearch)、高级检索(AdvancedSearch)、组合检索框(CombiningSearch Terms )、扩展检索框(ExpandingSearch Terms)和精炼检索(Refineyour Search)。提供类似Google的基本检索界面简洁,针对不同检索词的高级检索界面。在基本检索功能的检索字段中,除了可输入一般的检索词外,还可查找本单词的其他词形,如复数、所有格等,选中该选项将自动检索其他字形的检索词。使用Eurovoc①检索,可支持欧洲诸国22种语言的文献检索。

高级检索可限制在某一学科类目中预设全部、著者、题名和主题词等项目,也支持其他词形和其他欧洲语言,可把查找文献范围限制在世界、欧洲或德国内。检索时间限定在某一文献发表年或某一时区内,也可限定检索某一文本格式类型的文献[5]。搜索时可限定在免费(易检索的)信息资源内,即不仅包括授权用户,也可包括特殊资源。搜索结果可以通过著者、理学硕士等级(MSC-classes)、文献类型和语言限定检索,也可通过改进专用于单检款目类似搜索限定。搜索结果一般采用标准的元数据著录格式显示。全文文本可直接用浏览器和插件设备目录浏览,根据不同用途来定制界面。

除利用搜索框搜索文献资源外,BASE还可利用自身的浏览工具浏览文献,并把所标引文献资源按杜威十进分类法(DDC,Dewey Decimal Classification)分类,可分到3级类目,如一级类目4(语言),可分为04(法语)、044 (法语散文)(见图2)。迄今已为10多万篇文献分配DDC类号。在浏览界面,当移动鼠标指向某一类目时,就可显示下级类目。点击显示的一个类目就会启动BASE检索该类类目、下级或部分类目的文献。如果你检索某一级类目,也会自动检索下级类目文献,如你检索某类目,点击就可自动检索该类下的文献。在BASE实验室,通常展示测试的内容。2  BASE浏览界面

2  BASE技术、结构和特点

2.1 BASE技术

FAST搜索引擎技术模块结构透明、轮廓清晰,含有一个独立的后端服务器和前端服务器系统原件。前端服务器负责处理信息搜索、检索结果和提交的任务。后端服务器处理数据预处理和数据转换、数据吸收、同化、网虫爬行、文献处理和文献标引。用户界面具有类似Google搜索框的基本搜索表格、高级搜索选择项。如提炼检索、限制检索、馆藏选项和检索选项等增补功能。两种检索都允许免费文献限定检索。在提交元数据时,搜索结果充分揭示与搜索引擎标准不同的搜索结果页,如使用元数据检索作者、分类,以及文献格式和藏书等。所有检索结果在合适区域构成下拉菜单。在主索引中采用检索类似文献、在搜索结果提炼或排除类似文献,以及检索史的选择完善现行用户界面功能。

2.2 集成数据资源

有关搜索入口的元数据工作面向链接信息传送到目标系统(Z39.50或基于http)、基于系统增补数据库询问和传送结果转换内部格式等方面开展。为了灵活运用BASE,有必要对其结构进行分析研究。如BASE可采用几种方法装载数据到索引器;为捕捉数据,FAST设计有网络爬虫、数据库连接器和文件传输器等专用界面。在不需连接数据的地方,就不安装数据库连接器。

在处理HTML中未编码的文献和转化各种格式为FAST界定的XML格式中,比勒费尔德图书馆使用了FAST工具文件传输器(File Traverser)。在数据收藏和存储中,特别强调使用OAI数据收割技术,遵照都柏林核格式要求处理数据字段和语言编码。全文本URL标目有时置于资源字段,脚本皆采用PerlXSLT编写。在预处理阶段,需完成的任务包括语言编码识别、日期排序、XML转换、创建唯一标识符、过滤和纠错、创建成分价值和全文文本链接等。

然而,在内部和地方过滤问题处理方面,要对可变的、将处理的数据程序限定。文件传输器负责语言识别、指示类型识别、戏弄者(Teaser)生成和字段排序。此外,还要进行格式识别、解压、文本类型设定(全文文本,元数据或两种格式的混合形式),PostscriptPDF格式转换,以及程序处理流程语言的确定;数据捕捉处理包括FAST模块、附加模块、研制工具、数据装载爬虫、文件传输器、DB连接器、OAI收割机、DB出口、预处理PerlXSLT通行道、索引标引机、检索、导航搜索APIPHP脚本等。在FAST系统中,对索引结构的限定包括基本都柏林核第15字段,以及ISBN/ISSNDOI、年(正常格式)、资源类型(元数据,全文文本等)和资源5个附加限定字段[3]。

2.3 BASE的结构

BASE系统虽然建在基于客户/服务器结构之上,却配有多节点系统上的前端和后端服务器。当客户不再需要网络浏览器时,前端服务器是一台运行PHP高标准网络服务器;后端服务器也是一台拥有高速磁盘阵列的高性能多处理系统,基于“SUSE Linux 9.1运行“Fast Search 4.0.2”。前端服务器负责用户操作界面,通过http和咨询API处理检索结果和提交唯一检索结果目录。前端服务器与后端服务器之间的通讯不仅用于专用于实际用户提问和结果查询,而且还用于网络爬行、数据收藏、文件传递,或把数据快速转换成内部XML格式及文献处理和标引。

迄今,BASE已适应元数据搜索环境,针对不同文献格式的SGML界面数据包提供有httpOAI界面,实现了正确访问数据库和快速处理备检条目。BASE遵守都柏林核第15字段元数据集字段著录格式,执行5个附加标引字段:针对ISBNISSNdcisb,面向DOI或相似文献过滤的dcdoi,把年作为一个整数处理的dcyear,处理元数据、全文文本等数据类型的dctype,及处理版权资源名称的dcrights

2.4 BASE的特点

通过多年努力,BASE日渐发展成熟,与商业搜索引擎相比具有如下特点:

1)    可智能选择资源;

2)    唯一实现高质量科学要求和达到学科相关性特殊要求的文献服务;

3)    在搜索过程中,数据资源目录详细透明;

4)    可以搜索附加有元数据(根据资源)的全文文本;

5)    能揭示常被商业搜索引擎忽略或大量的搜索技巧中检索不到的“深层网”资源;

6)    搜索结果可显示精炼的书目数据(如资源含有);

7)    提供几种搜索结果目录排序方法;

8)    “精炼搜索结果”选项(作者,资源,文献类型,语言等)。

3  BASE发展路程、发展前景及学术地位

3.1 发展路程

1967年比勒费尔德大学图书馆建立以来,德国CD-ROMOPAC1988年和第一个网络版CD-ROM同时发行;1993年,文献传递服务JASON与国际学科期刊论文数据库JADE共同起步;1997年建成一体化图书馆信息系统IBIS1999年创建北莱茵-维斯特伐利亚(NorthRhine-Westphalia)数字图书馆; 2000年集成于图书馆服务,建立基于模糊逻辑的“智能搜索助手”。为了进一步提高服务质量,比勒费尔德大学图书馆对现代搜索引擎技术进行一系列探索和研究,在电子信息服务方面走在同行们的前列。

根据Fast Search & Transfer公司的合作协议,比勒费尔德大学图书馆研发的两个软件,即德国启蒙时期人文科学的核心期刊、自建回溯性数字化文献库、Gottinger科学学会(GottingerAkademiederWissenschaften)的系列“数字图书馆”和“数学”数据库。目前,比勒费尔德图书馆已发展成以数学为主,兼收多学科文献中心,并出版有开放检索学术期刊――“文献数学”(Documents Mathematica)。

然而,通过德国慕尼黑与Guenthner教授信息语言处理中心(Prof. Guenthner'sCentrum fur Informations und  Sprachverarbeitung)的合作,Fast公司增设邻近搜索作为自动抽取元数据和交叉语言信息检索类语言工具。“BASE:数学”库涵盖的大多数资源是BASE能够发现的网页信息资源和不必再向数学读者多加介绍的重要信息资源。为了保证“BASE:数学”库朝着数学研究者关心的方向发展,BASE不仅进一步研发软件工具,而且还要增加搜集的内容、内容,甚至更多内容。

3.2 学术地位

近几年Bielefeld大学图书馆通过对搜索引擎技术的探索,为德国、英国和美国等国的图书馆在免费揭示学术信息方面树立了榜样。把德国比勒费尔德大学、德国哥廷根州国家技术图书馆(TIB, Hanover)Bielefeld大学图书馆、牛津大学图书馆服务部、密歇根州和Cornell大学图书馆、斯普林格出版商和德国《数学文摘》数据库(Zentralblatt für Mathematikhttp://www.zentralblatt-math.org/zmath/en/)等机构的数据装入标引库,包括比勒费尔德大学图书馆及所有参加数学学科研究人员预处理和标引的数据,如数字藏书、预印本书服务、电子期刊、机构数据库、联机图书馆目录和数据库等数据。对所有成员来说,把各自的数据展示给数据收集工具(如网络爬虫、ftp、元数据收割机)是必不可少的工作,即所有成员都必须参与提交、控制网上库藏文献。事实证明,这就是为商业成员、公共图书馆及机构提供服务的工作基础,尤其商业成员认为这种服务一点儿也没有影响现存的授权协议,还增加了收藏内容的检索点。当文献提供商使用提供服务时,针对商业因特网索引编制的新学术搜索索引和目录就是一个新的、舒服的、高质量的分布馆藏搜索和导航平台。此外,在使用技巧中,把每个成员藏书的特点和性质,及“利用XYZ机构所供”资源的方法也介绍得清清楚楚[6]。

3.3 BASE发展前景

BASE是比勒费尔德大学图书馆继构建数字图书馆之后制定的一个战略性方案,主要目标包括:①利用整合更多OAI资源和地方资源的方法拓展BASE;②提供新版本的HTTPSOAP界面;③采用FAST评价和使用语言学工具的方法;④提供联邦式搜索;⑤具备学科分类浏览功能(BASE Lab实验版)[7]。迄今BASE已发展成一个适用于Fast Data Search的检索工具。未来在扩充标引内容、收纳多类型文献和数据方面将做得更好,检索质量做得更高。此外,像智能用户界面、一体化引文分析、语言工具功能增强、个人化检索结果排列,个性化文献信息推送,以及借助恰当字词典、邻近搜索和交叉语言信息检索等功能也将得到较大改善,并将朝着更高级的方向发展。

4  结语

综上所述,BASE已发展成为一个免费提供因特网学术文献资源搜索引擎。它侧重数学文献资源,兼收多学科学术资源,并可利用DDC对所标引学科文献进行三级分类,为从学科的角度进行浏览文献提供方便,也为编制搜索工具提供了借鉴,以都柏林核标准著录格式提供文献目录和标目。形成了自己的标引文献的体系,建有自己的免费学术信息资源数据库。在给同行树立典范的同时,极快地发展了自己。目前,我国仅限于看得见网络学术信息资源的提供,只是百度搜索打算下一步发展旨在研发深网和看不见网学术文献资源的搜索引擎,面对开放性因特网免费学术资源服务,已落后于世界先进国家。在此,对BASE进行深入研究,有助于我们研究因特网免费学术资源的布局、搜集与整合,提供全方位的搜索和服务。也有助于利用其功能检索所需学术信息和全文文本文献。

 

注释

一个覆盖了欧洲共同体字段的多语种词汇表,提供了欧洲机构及其用户文献系统标引文献的方法。欧洲机构、国家议会和各Eurovoc用户合作编制了Eurovoc4.3,含有22种欧联盟的官方语言(保加利亚语、西班牙语、捷克语、丹麦语、德语、爱沙尼亚语、希腊语、英语、法语、意大利语、拉丁语、立陶宛语、马耳他语、匈牙利语、荷兰语、波兰语、葡萄牙语、罗马利亚语、斯洛伐克语、斯洛文尼亚语、芬兰语和瑞士语)。目前他们正在使用。

 

参考文献

1 Lossau,Norbert. Search Engine Technology and Digital Libraries: Libraries Need toDiscover the Academic Internet. D-Lib Magazine, 2004 V.10 No.6.2009-04-20.http://dlib.ukoln.ac.uk/dlib/june04/lossau/06lossau.html#1#1

2 http://base.ub.uni-bielefeld.de/en/about_sources_date_dn.php?menu=2

3 Summann,Friedrich and Lossau, Norbert. Search EngineTechnology and Digital Libraries: Moving from Theory to Practice. D-Lib Magazine, 2004 (10).2009-04-06.http://www.dlib.org/dlib/september04/lossau/09lossau.html

4 Pieper, Dirk and Summann,Friedrich. BielefeldAcademic Search Engine (BASE): an end-user oriented institutional repositorysearch service. Journal Article (Print/Paginated) EN,2006(1).2009-04-02.http://eprints.rclis.org/ archive/00009160/

5 BASE HELP.2009-0402. http://base.ub.uni-bielefeld.de/en/help_search.php?menu=3

6 Pieper, Dirk and Summann,Friedrich. Die Entwicklung des ZugangssystemsderDigitalenBibliothek NRW. Nachrichten fur Dokumentation, 1999 (50): 397-405

7 http://base.ub.uni-bielefeld.de/en/about_develop.php?menu=2

 

赵金海  男,1956年生。山东聊城人,聊城大学图书馆副研究馆员。出版专著2部,发表论文40余篇。