索引标准全文何处寻及其他
周柏康
(上海建桥学院信息图文中心 201319)
前些时候,听说《索引编制规则(总则)》已作为国家标准正式颁布,自然十分高兴,便想一睹为快,不料事情并不像想象的那么简单,于是引发了作一点比较的念头,也就有了这样一篇小文。
――网上搜不到全文
跟着习惯走,首先叩问谷歌和百度,反馈结果中,真正相关的才区区数十条。数量多寡尚在其次,对本人而言,问题在于相关的信息大都是报道之类,无有全文。
――学会网站只看得到报道
于是,径直前往中国索引学会网站。可是,学会网站主页上几个有点关系的按钮全都按了,还是只见报道不见全文,而且报道也没有链接全文。然后,中国新闻出版信息网徒劳查找;国家标准化委员会网站只提供强制性标准全文浏览,索引标准因属于推荐性标准,又无缘得见。
――标准数据库查不到题名
笔者鼓起余勇,再往“万方”的标准数据库碰碰运气,检索下来,无影无踪,连题录都没有查到,意味着尚未收录。
――图书网可以打折买
无奈之下,到网上图书市场转转。纸质载体的册子倒是有得买,20元一本,当当网稍打点折,蔚蓝网打到3折,6元钱,很便宜。
――主流媒体纷纷报道索引标准
索引标准公布时,光明日报、解放日报、文汇报等主流媒体纷纷报道,网上的相关信息也不算少,但是,看不到全文,总让人有一点“只听楼梯响,不见人下来”的感觉。而且,只有(至少在业内)让尽可能多的人尽可能便捷地看到全文(尤其是在网上),才能让更多的人了解并实践,也才更有利于实现推广和普及。
那么,别的标准是否也是如此呢?
我们来看看同样是关于图书的,同样是推荐性国家标准的《中国标准书号》。
――行业主管部门力推《中国标准书号》
在中国新闻出版信息网的主页,“政务在线”栏目下,列出了一系列行业标准,任意点击均可浏览全文:
而且,为了推广应用,还编制了详尽的“《中国标准书号》使用手册”,以及“《中国标准书号》知识”等宣传材料。《中国标准书号》标准及其使用手册,不但在行业网站,而且在谷歌和百度等处,也可方便地检索到,并获得全文。
有行业依托,能如此强势,自不待言。那么,我们再来看一下市场运作下的搜索引擎索引。
――搜索引擎协议受到业内热捧
网络行业也有不少官方颁布的标准,然而大多属于管理标准,类似于“索引编制规则”的技术方法规则,其实是林林总总的“协议”。“网络WIKI”对此表述为:“数据通信是由多种通信协议来定义的。在数据通信的范围内,协议是一组正式的规则、协定和数据结构,它们控制计算机以及其他网络设备如何在网络上交换信息。换句话说,协议是一种标准的程序和格式,是两个数据通信设备必需能够互相理解、接收和交谈的。”[1]当然,规范机器的信息行为的“协议”与规范人的信息行为的“标准”不可同日而语,但两者的原理和功效存在颇多的相似之处,有得一比。
以谷歌为例,谷歌发明了“pagerank”算法来自动索引网页。谷歌的服务器自动发出很多小程序“robots”,像蜘蛛一样沿着互联网内每个网页爬行,并将网页要素带回服务器,建立索引;同时,根据该网页被别的网页链接的次数,以及其他一些要素,来决定它的重要程度并进行索引排序。因此,用户的每一次搜索,都是对谷歌已经建立索引的服务器发出请求,在自动检索建立的索引档案中查找答案[2]。
后来,谷歌采用Sitemaps协议,更加广泛、高效地抓取和索引站点,在业内引起震动。2006年11月,Google、雅虎和微软三个公司联合发布消息:“为了改进搜索引擎的Web抓取过程,Google、雅虎和微软将宣布对Sitemaps 0.90的支持。”[3]Sitemaps协议发展势头极好,仅隔半年,2007年5月,有一位名叫highdiy的博友在“点石互动搜索引擎优化博客”中已经说道:“需要指出的是,如今Sitemaps协议已成为行业标准,不独对Google有效,其他主流搜索引擎包括Yahoo!、Live搜索及Ask均已提供支持。”
――搜索引擎协议网络宣传“无微不至”
笔者在谷歌(中国)和百度分别以中文检索“《国家标准 索引编制规则(总则)》”和“Sitemaps协议”,情况是这样的:
| 国家标准《索引编制规则(总则)》 | SiteMaps协议 |
获得结果条数 | 最相关条数 | 获得结果条数 | 最相关条数 |
谷歌 | 55000 | 48 | 629000 | 641 (受显示数量限制) |
百度 | 2020 | 7 | 10200 | 761 (受显示数量限制) |
“Sitemaps协议”的网络宣传不仅铺天盖地,而且“无微不至”。
例子之一:谷歌的一位研究员在谷歌(中国)的博客网志“走近我们的产品、技术和文化”中发表文章《简单之美:布尔代数和搜索引擎的索引》,从介绍布尔是十九世纪英国一位小学数学老师谈起,娓娓道来,吸引受众无障碍进入,效果自然极佳[4]。
例子之二:在“协议sitemaps.org常见问题解答” [5]中,仅介绍Sitemap 的 XML 格式,就用了8个Page。其中一段是这样的:“Sitemap 索引文件的 XML 格式与 Sitemap 文件的 XML 格式非常相似。Sitemap 索引文件必须:以 <sitemapindex>开始标记作为开始,以</sitemapindex> 结束标记作为结束。每个 Sitemap 包含一个<sitemap> 条目作为 XML 父标记。 每个 <sitemap> 父标记包含一个 <loc> 子标记条目。 可选的 <lastmod>标记同样适用于Sitemap 索引文件。注意:Sitemap索引文件只能指定与其位于同一网站的 Sitemap。例如,http://www.yoursite.com/sitemap_index.xml 可包含 http://www.yoursite.com 上的Sitemap,但不能包含 http://www.example.com 或 http://yourhost.yoursite.com 上的 Sitemap。与 Sitemap 一样,Sitemap 索引文件也必须为 UTF-8 编码……”简直到了�嗦的程度。但不厌其烦地详细讲解,其可操作性自然就强。豹窥一斑,由此约略可见搜索引擎的营销策略和手段。
――索引标准要千方百计“营销”自己
据“易观国际”报告,2008年中国搜索引擎市场规模达到51.5亿元[6]。“Sitemaps协议”等行业标准及其营销对于这一业绩的贡献虽然无从细分,但也可以想像得到。对此巨无霸,索引标准难以望其项背,也不大可能存在与之比肩的奢望,甚至不大可能走它们的道路。但是,巨无霸也是一点点成长起来的,它们的成长欲望,它们的发展方式,它们千方百计的营销策略和手段,有没有值得索引标准学习借鉴的地方呢?
��嗦嗦写下这些,目的仅在于此。
参考文献
1 wiki.networkdictionary.cn/index.php?title... 28K.[2009-4-15]
2 opinion.voc.com.cn/article/200907/2009070 ... 17K.[2009-7-6]
3 www.nbit.gov.cn/homepage/show_view.aspx?i ... 48K.[2009-6-9]
4 googlechinablog.com/ 125K.[2009-7-9]
5 www.sitemaps.org/zh_CN/faq.php11K.[2009-6-19]
6 www.chnvc.com/report/list_c2.html 25K.[2009-6-25]
周柏康 上海建桥学院信息图文中心副主任,中国索引学会常务理事。