“看不见网页”与网上信息资源辛继宾
发布时间:2018-09-25  浏览次数:60

“看不见网页”与网上信息资源

辛继宾

(复旦大学医科图书馆上海200032

    本文简单分析了“看不见网页”出现的原因,介绍了几个“看不见网页”的导航网站,探讨了如何利用“看不见网页”获取网上学术信息资源。

关键词  “看不见网页”   Invisible web   信息检索  搜索引擎

 

随着互联网的迅猛发展,搜索引擎在人们获得信息的过程中扮演着越来越重要的角色,同时搜索引擎不断改进,收录的网页越来越多。截止到2006年底,Google目录中收录了80亿多个网址,百度数据库拥有超过10亿的中文网页,并且,这些网页的数量每天以千万级的速度在增长。但是网上仍有很大一部分页面普通搜索引擎无法搜到,这就是我们需要了解的“看不见网页”。

现在对“看不见网页”的叫法很多,国外大多称其为Invisible WebDeep WebHidden WebDark Matter等,我国台湾的一些专家把它称作“隐形网站”,而其定义更是不胜枚举。普遍性的定义是指由于技术限制或其他特定原因而不能或未被纳入通用搜索引擎的网页索引。

1  出现“看不见网页”的原因分析

一般认为出现“看不见网页”原因主要有两种:一种是因为搜索引擎有选择地拒绝收录,如危险、黄色、非法网页等;另一种是搜索引擎因技术原因而无法收录网页。后者是形成看不见网页的主要原因,也是本文阐述的重点。

我们都知道,搜索引擎的原理,可以分为三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

①从互联网上抓取网页:利用能够从互联网上自动搜集网页的Spider/Crawlers程序,自动访问互联网,并沿着网页中的URL爬到其他网页,并把爬过的所有网页搜集回来。

②建立索引数据库:由分析索引系统程序对搜集回来的网页进行分析,提取相关网页信息(包括网页的URL、编码类型、页面内容的关键词、文件生成时间、大小等等)。然后根据相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

③在索引数据库中搜索排序:当用户输入关键词搜索后,由搜索程序从索引数据库中找到符合该关键词的所有相关网页,因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的Spider/Crawlers一般要定期重新访问所有网页、更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

虽经过几年的发展,搜索引擎技术得到一定的改进,如针对检查结果的相关度排序问题,就引入了“引文索引”思想,形成了超链分析技术。但是搜索引擎基本的工作模式没有太大的改变,Spider/Crawlers程序搜集的主要还是静态网页。这就是Invisible Web形成的主要原因。

早期的搜索引擎一般只收录HTML网页文件,而对于用户不经常检索的文件格式,比如PDF文档等选择不加收录。HTML是互联网上最基本的通用语言,搜索引擎的Spider/Crawlers程序最擅长处理HTML语言写成的网页文件。在HTML中可以设置超级链接链接其他类型的文件,比如PDF文档。处理其他类型的文件在技术上没有很大的难题,但搜索引擎开发商出于成本的考虑,一般将之排除在外。随着搜索引擎的重要性日益加剧,近两年来已有一些搜索引擎正在努力扩展和完善其检索服务,例如Google,现在可以通过Google检索图片、PDFWordPower Point等多种格式的文档。

另外还有一些网页因为人为限制因素导致搜索引擎无法收录其信息,例如:①私人网页(The Private Web)。这类网页本来是可以索引的,由于网页主人加了口令保护、禁止索引的网站标记等,便将搜索引擎的Spier/Crawlers程序拒之门外。②专用网页(The Proprietary Web),这些网页一般只有注册用户才能浏览,Spider/Crawlers程序不会填表,当然也就没法搜集。

2  获得“看不见网页”的信息资源

2000年粗略统计,“看不见网页”资源大概是看得见的网页资源的500倍,而且近几年这个数字有不断增加的趋势。另外,此类网站提供的信息内容具有较高的权威性,因而具有较高的参考价值。因此,如何检索“看不见网页”也成为一个很重要的问题。

2.1使用Invisible Web导航网站

国外提供查询“看不见网页”的搜索网站和工具很多,尤其是美国,在这一领域发展较为迅速。主要的有:

http://www.invisibleweb.com搜集的“看不见网页”目录包含10000多个数据库及常被传统检索忽略的可检索资源,尤其是网上可检索的专业数据库。网站分析并描述每个资源,确保用户能找到数百种主题,包括从机票到黄页的可信信息。检索方式有快速检索、高级检索和浏览检索。与其他搜索引擎不同的是,它直接进入某一网站内的可检索资源,甚至生成检索框以输入检索式。它十分注重信息检索时的层次结构,同时检索结果的页面下方也会列出与主题词相关的数据库站点的链接和对该数据库的详细介绍及其检索方式以供用户参考使用。

http://www.lii.org是一个可检索、带注释的主题目录,包括图书馆员为公共图书馆用户选择和评估的7000多种网络资源。它并不是纯粹的看不见网站的导航。它将每一资源分为最优资源、目录、数据库及专业网站。我们可使用高级检索功能限定在结果列表中只返回我们需要的数据库资源。事实上,这是一个极佳的查找“看不见网页”的检索工具。

http://www.completeplanet.com搜集的“看不见网页”资源主要包括的是公共的文本信息内容,而并不包括“看不见网页”其他方面的内容(如非html网页形式的文件、图像、音乐和视频)。查询时用户只须在搜索栏中用自然语言输入一个提问或者一些词条,然后按“搜索”键,网站会自动将你的提问转化为各种可能的布尔逻辑式再传送给你,由你来选择用哪种提问式进行检索。你也可以利用运算符建立布尔逻辑式进行检索。该站点也提供浏览检索方式。值得一提的是,CompletePlanet允许将同一信息内容放在多个主题类别之下(最高可达5个),而大多网络指南只能将其放在一个主题之下。这样,利用CompletePlanet进行信息检索的命中率也就提高很多。但是CompletePlanet最大的不足,就是其检索结果中常常会出现许多看得见的网络信息,容易使用户混淆。

http://www.profusion.comIntelliseek公司的一个元搜索引擎,可直接检索看不见的网站,且能同时检索1000多种目标信息源,包括有TerraServerAdobe PDF SearchBritannica.com、纽约时报及美国专利数据库等。

2.2在操作系统中增加具有查找专业数据库功能的插件

最具代表性的是苹果机操作系统中的Sherlock。苹果公司提出了一个好的方法解决查找看不见的网络资源这一难题。在Mac操作系统中,Sherlock作为其新增部分,可利用插件(Plug2ins)搜索几乎所有的数据库。通过简单的程序运行,插件可以让Sherlock引擎知道如何请求外部数据库的响应并反馈数据库的响应。这样,通过一个请求就可以查询整个网络。Sherlock曾经被当作一种元搜索工具(与DogPileMetaCrawlersSavySearch等类似),但是从其搜索看不见的网络资源的能力及其插件结构来看,Sherlock比当今的任何通用搜索引擎都更具潜力。现在Sherlock有好几百个免费插件可供选用,而且可从许多网站下载使用。

2.3提高个人信息意识

互联网的信息资源日益庞大,光靠网络技术的发展难以追赶网络信息资源激增的步伐。充分利用所有可能的条件以及各种查询工具的有关知识,主动搜索Invisible Web相关信息,挖掘并增加个人收藏的相关站点资源,比如某论坛中是否在讨论某个好的新站点等,随时利用各种技巧搜索难以捕捉的资源;同时积累经验,完善检索策略。

2.4改进搜索技术,灵活使用通用搜索引擎

尽管在搜索“看不见网页”时通用搜索存在这样或那样的弊端,但并不建议放弃使用通用搜索引擎去查找“看不见网页”资源。相反,应该是通用搜索引擎及其他信息检索方式综合利用,从而使得网络检索更有效。因此,在检索前必须明确自己究竟需要得到什么,该资源能解决哪些问题,考虑的重点应放在专业性的、确切需要的内容模块上而非整个网站的内容。另外,通过搜索引擎的“入口”,就有可能用数据库内部提供的检索服务技术,全面涉足里面的丰富内容。但要发现这个入口,难度是比较大的。这时可以在搜索引擎中用检索术语诸如“可检索数据、互动工具、交互式数据库、定制式数据库”和其他类似的短语,通过运行优先检索权来进行。即在搜索引擎中用布尔逻辑“and”运算符加上以上关键词,检索有关主题。用这种检索策略查找到的信息多半可能是可视信息,但可以从中发现隐性Web数据库的入口通道,再由此进行隐性信息的检索。

2.5利用元数据来标注隐蔽网络资源

Invisible Web今后研究的方向主要是分布式检索和元数据标注网络资源,这两种方式都可以获得更高的检索效率,但目前仍处于研究阶段。

Invisible Web的出现并不是一个独立的问题,它是互联网发展的必然产物,光靠网络技术的发展难以解决,对网络信息资源实行有组织、有计划的控制需要一个整体的措施。无论如何,我们要重视“看不见网页”,利用各种工具和技巧,充分挖掘网上资源,更好地满足我们的信息需求。

 

参考文献:

1马费成,张婷.“看不见”的网站与学科信息门户的比较分析.情报理论与实践,2003273):298-301

2黄晓冬.Invisible Web研究综述.情报科学,2004229:1144-1148

3刘雅晴.隐蔽网络及其资源检索策略研究.情报科学,200624(5):713-716

4http:www.invisibleweb.com

5http://www.lii.org

6http://www.completeplanet.com

7http://www.profusion.com

8http://www.google.com

9http://www.baidu.com

10http://www.yahoo.com.cn

 

辛继宾   男,1977年生,硕士,复旦大学医科图书馆参考咨询部助理馆员。