从目录式搜索引擎的新发展看图书馆的资源共建 冷冬梅
发布时间:2018-09-21  浏览次数:13

    文    本文通过介绍目录式搜索引擎的一种新的建设方法――ODP项目,对于我国图书馆的资源共建提出一些建设性的意见。

    关键词 ODP  搜索引擎  资源共建  图书馆


    目前各大图书馆系统,各个大中图书馆都在热衷于建设数字图书馆,这是我国信息资源共建的一个契机。

    以现代通讯技术和计算机网络为依托的数字图书馆建设是建立我国文献信息资源保障体系和实现文献信息资源共建的最佳模式。在文献载体多样、文献信息激增的今天,数字图书馆的建设本身就包含着共建与共享。数字图书馆能够提供对基于因特网的数字电子信息的存取,采用计算机网络技术和现代通讯技术形成的图书馆文献信息网络,实现了文献信息的实时化、远程化传递,使图书馆先通过“占有”而后实现服务的模式有了改变,并对传统的图书馆文献资源建设产生了积极的影响。共建与共享成为数字图书馆文献信息资源建设的最主要特征。数字图书馆通过现代通讯技术可以与其他图书情报机构互相沟通,形成一个互为补充、互为利用、互为推动的文献信息资源保障体系,使馆际互借和资源共享成为现实。

    然而,中文的电子信息资源的建设缺乏统一规划,大量重复,各图书馆的电子信息的格式不兼容,难以形成强有力的中心协调机构等等中国图书馆界的传统问题,深深地困扰着数字图书馆的发展。

    这些问题涉及到体制等多个方面,解决不易。但是,国外的一个目录式搜索引擎ODP项目的成功经验也许能够提供一些新的解决思路。

1 ODP的由来

    Open Directory Project,开放目录项目,是为了解决目录式搜索引擎的标引跟不上互联网发展而由众多的公司共同发展起来的一个对于整个互联网内容进行标引的合作项目。

    普林斯顿NEC研究所的研究员Dr.Steve LawrenceDr.C.Lee Giles的研究表明:目前国际互联网有大约8亿个网页,1.8亿张图片;而目前排名前11位的搜索引擎仅收录了大约3.35亿个网页,仅占其42%,较1997年覆盖了其中的60%明显下降。超过半数的网页在搜索引擎中不能发现。一个搜索引擎大约平均要花186天才能为一个新的或者变更了的网页做索引。Dr.SteveLawrence认为搜索引擎已经落后于web的发展1020年。以机器标引和用少量的编辑人员维护的目录式搜索引擎,面对以爆炸方式增长的web已经无能为力了。

    Rich SkrentaBob TruelODP的创始人。他们在开始的时候一直使用Yahoo,在使用的过程中,他们渐渐地厌烦了Yahoo上大量的死链接,随着web的发展,检索时出现的不相关信息也越来越多了,而想提交一个新的站点也是非常的麻烦。到1998年初,RichSkrentaBob Truel分析认定Yahoo由于使用了非常有限的编辑和维护力量,因此跟不上web的快速发展。他们要创建一个克服Yahoo的缺点的全新的目录式搜索引擎。

    GNU(目标是通过众多志愿者的努力做出免费获得的Unix系统)计划的成功,他们想到了利用“web社区”方式来解决这个问题,即开放网页目录数据库,让所有的网络使用者都有可能成为搜索引擎的编辑,通过这种方法解决Yahoo等主流搜索引擎不能解决的问题。

    他们将他们的站点命名为“Gnuhoo”这个词是由“Gnu”和“hoo”合成的。在Yahoo获得巨大成功后,“hoo”就成为了目录式搜索引擎的代名词。这个名字很好的表达了这个网站的性质和宗旨。但是由于“自由软件基金”的抱怨,很快不得不将其改名为“Newhoo”。

    几个月以后,在Rich SkrentaBob Truel和其他的3个创始人的努力下,199865日,Gnuhoo开始了自己的服务,最初的网址是http://directory.mozilla.org/(直到现在仍在使用)。由于当时Linux等在GNU下发展起来的项目非常的抢眼,Gnuhoo也迅速受到了媒体的注意。美国有线新闻首先报道了Gnuhoo,著名的搜索引擎评论家DannySullivan(“搜索引擎观察网”http://www.searchenginewatch.com的创始人)也注意到了Gnuhoo19981118日,曾开发了著名的网络浏览器的Netscape公司正式收购了Gnuhoo,并和LycosGoogleHotbot等著名的搜索引擎合作,将其扩大为OpenDirectory ProjectNetscape公司在微软的打压下日子非常的不好过,当时已经将其著名的浏览器Netscape作为GNU的一个部分,开放了源代码,希望能借此挽回其被IE淘汰的命运(也的确起了一些作用,各种版本的Linux操作系统都将其作为在窗口环境下的浏览器,一些大型的Unix系统也开始使用它)Gnuhoo正好与当时Netscape公司的需要吻合。

2 ODP的今天

    ODP的目标是通过最为广大的志愿者的努力提供最为全面的Internet目录。毫无疑问,ODP取得了巨大的成功,现在的ODP是最大的网络目录(其数据量不是最大的),在15个大类下分级涵盖了人们所能想象的14000个子类(相比较而言,目前一些著名的搜索引擎,如Alta Vista, MSN Search等广泛采用的Looksmart公司提供的分类目录仅有7000多个类目),在子类下,包括了近100万个网站。参与ODP的志愿者目前超过15000人。

    只要符合GNU通用许可证的要求(虽然ODP并不是GNU计划的一个部分),即在使用时声明版权,任何人都可以无偿地使用ODP的数据。有许多小的搜索引擎和某些专业学科的网站使用了ODP的数据。使用ODP数据的大的搜索引擎主要是NetscapeLycosHotbotNetscape是其拥有者,自然是使用其数据。Lycos使用了ODP的目录,其搜索结果中在“相关网站(WebSites)”下提供的数据是来自ODP的。Hotbot也使用了ODP的目录,搜索结果中的“相关类目(Directory Results)”中的数据来自ODPODP每周或每两周为这些大的搜索引擎更新数据。数据的版权是属于编辑者的,但是任何人有权使用和修改。

3 ODP的编辑原则

    ODP声明,任何人都可以成为编辑。这正是它的吸引人的地方,也是解决搜索引擎跟不上web发展的问题的关键。但是ODP并不是一个大杂烩,编辑资格的取得要通过一个比较严格的审查。任何人可以在主页上申请编辑的资格,但是必须进入到相关的最小的子目录。

    编辑在理论上是平等的,大家通过交流,协商解决一些分歧。但是为了能够组织这样一个庞大的项目,对数据的质量进行有效的控制,须由一部分“核心编辑”对数据进行监督,并对新的编辑进行审查。

    一个目录可以不止一个人来做,某个人也可以另外申请新的目录。但对于编辑的行为是有着一套比较严格的规范的:尽量收录有用的网站,对于内容太少的网站不予收录;色情暴力站点可以收录,但是只能在专门的“adult(成人)”类下,对于这个问题不同于Looksmart的原则,但是根据本文开始的时候提到的Dr.SteveLawrenceDr.C.Lee Giles的研究,在web上,色情内容实际仅占1.5%;编辑可以随时加入或是退出,连续4个月没有做任何编辑工作,自动取消编辑资格;编辑对站点都必须有描述,但是一定不能抄袭任何其他网站所作的描述,包括ODP本身在其他目录下出现的同一站点的描述;对于有镜象站点的网站须给出说明,但是不能分成若干条记录;编辑要及时清理死链接。对于是否收录一个网站,一般从以下的方面判断:内容是否丰富、有用,网站的内容是否适合于当前的目录,网站的更新是否及时,网站的访问量是否高,用户的范围是否广泛。

4 对于图书馆资源共建的启示

    ODP项目以一些大的公司作为核心,通过广大志愿者的努力,成为解决对于成级数增长的web的索引制作问题的一种比较有效的方案,同时也是一个资源共建的典范。

    目录式搜索引擎可以被看作是整个互联网内容的目录。而图书馆资源共建的基础就是共建共享的联合目录。ODP项目的成功对于图书馆的资源共建有着许多的启示。首先,在观念上,信息资源在我们的时代增长的速度太快,不是任何一个机构,一个公司,或者是一个国家全都能掌握的,信息资源共建共享是必然的趋势。ODP项目就是在这样的认识下被催生出来的。分布在世界各地的志愿者,面对浩如烟海的网络信息资源,只能通过携手合作才可以尽可能多地对其进行标引。而对于网络信息资源的使用者(当然包括ODP的志愿者),这样的合作也使其今后能更方便地获得信息。作为信息导航者的各个图书馆更是早就明白这一点,但是因为观念、利益或行政上的藩篱,却迟迟走不到一起。其次,在行动上,应当有强有力的中心协调机构。ODP项目的成功,与其严密的组织结构,详细的编辑原则,以及像NetscapeLycosHotBot这样的大公司的推动是分不开的。图书馆的资源共建更需要有中心机构的协调,以避免不必要的重复建设。中心机构还应该制定周密的计划和分工,对于利益与权利的分配也需进行相应的协调。

    ODP项目并非十全十美,但是它的许多成功经验是值得我们借鉴的,对于我国的图书馆对中文信息资源进行有力的建设组织,让中文信息能够被更多的人廉价获得,有着非常重要的指导意义。当然,图书馆的资源共建并不是只有ODP这样一个项目、一种方法可以借鉴,我国的图书馆应当博采众家之长,抓住目前的大好时机,加强合作与协调,建设好我国的信息资源。


参考文献

1 http://www.searchenginewatch.com/

2 http://www.netscape.com/

3 http://www.hotbot.com/

4 http://dmoz.org/

5 http://www.lycos.com/

6 孙建华,于爱香.计算机网络建设与信息资源开发.图书馆建设,1998(6)

7 朱莹莹.九十年代我国文献资源共享研究综述.图书馆建设,1997(4)

8 冯之浚.知识经济与中国发展[M.北京:中共中央党校出版社,1998

    冷冬梅 国家图书馆副研究馆员