索引标准全文何处寻及其他(周柏康)
发布时间:2018-09-26  浏览次数:22

索引标准全文何处寻及其他

周柏康

(上海建桥学院信息图文中心   201319

 

前些时候,听说《索引编制规则(总则)》已作为国家标准正式颁布,自然十分高兴,便想一睹为快,不料事情并不像想象那么简单,于是引发了作一点比较的念头,也就有了这样一篇小文。

——网上搜不到全文

    跟着习惯走,首先叩问谷歌和百度,反馈结果中,真正相关的才区区数十条。数量多寡在其次,对本人而言,问题在于相关的信息大都是报道之类,无有全文。

——学会网站只看得到报道

    于是,径直前往中国索引学会网站。可是,学会网站主页上几个有点关系的按钮全都按了,还是只见报道不见全文,而且报道也没有链接全文。然后,中国新闻出版信息网徒劳查找;国家标准化委员会网站只提供强制性标准全文浏览,索引标准因属于推荐性标准,又无缘得见。

——标准数据库查不到题名

   笔者鼓起余勇,再往“万方”的标准数据库碰碰运气,检索下来,无影无踪,连题录都没有查到,意味着尚未收录。

——图书网可以打折买

无奈之下,到网上图书市场转转。纸质载体的册子倒是有得买,20元一本,当当网稍打点折,蔚蓝网打到3折,6元钱,很便宜。

——主流媒体纷纷报道索引标准

索引标准公布时,光明日报、解放日报、文汇报等主流媒体纷纷报道,网上的相关信息也不算少,但是,看不到全文,总让人有一点“只听楼梯响,不见人下来”的感觉。而且,只有(至少在业内)让尽可能多的人尽可能便捷地看到全文(尤其是在网上),才能让更多的人了解并实践,也才更有利于实现推广和普及。

那么,别的标准是否也是如此呢?

我们来看看同样是关于图书的,同样是推荐性国家标准的《中国标准书号》。

——行业主管部门力推《中国标准书号》

在中国新闻出版信息网的主页,“政务在线”栏目下,列出了一系列行业标准,任意点击均可浏览全文:

当前位置:政务在线>>行业标准>>图书

图书在版编目数据

 

《中国标准书》使用手册

 

国际ISBN一览表

 

国际标准书号(3)

 

中国标准书号

 

图书书名页

 

中国标准书号条码

 

  

而且,为了推广应用,还编制了详尽的“《中国标准书号》使用手册”,以及“《中国标准书号》知识”等宣传材料。《中国标准书号》标准及其使用手册,不但在行业网站,而且在谷歌和百度等处,也可方便地检索到,并获得全文。

    有行业依托,能如此强势,自不待言。那么,我们再来看一下市场运作下的搜索引擎索引。

——搜索引擎协议受到业内热捧

网络行业也有不少官方颁布的标准,然而大多属于管理标准,类似于“索引编制规则”的技术方法规则,其实是林林总总的“协议”。“网络WIKI”对此表述为:“数据通信是由多种通信协议来定义的。在数据通信的范围内,协议是一组正式的规则、协定和数据结构,它们控制计算机以及其它网络设备如何在网络上交换信息。换句话说,协议是一种标准的程序和格式,是两个数据通信设备必需能夠互相理解、接收和交谈的。”当然,规范机器的信息行为的“协议”与规范人的信息行为的“标准”不可同日而语,但两者的原理和功效存在颇多的相似之处,有得一比。

以谷歌为例,谷歌发明了“pagerank”算法来自动索引网页。谷歌的服务器自动发出很多小程序“robots”,像蜘蛛一样沿着互联网内每个网页爬行,并将网页要素带回服务器,建立索引;同时,根据该网页被别的网页链接的次数,以及其他一些要素,来决定它的重要程度并进行索引排序。因此,用户的每一次搜索,都是对谷歌已经建立索引的服务器发出请求,在自动检索建立的索引档案中查找答案。

后来,谷歌采用SiteMaps协议,更加广泛、高效地抓取和索引站点,在业内引起震动。200611月,Google、雅虎和微软三个公司联合发布消息:“为了改进搜索引擎的Web抓取过程,Google、雅虎和微软将宣布对Sitemaps 0.90的支持。” SiteMaps协议发展势头极好,仅隔半年,20075月,有一位名叫highdiy的博友在“点石互动搜索引擎优化博客”中已经说道:“需要指出的是,如今Sitemaps协议已成为行业标准,不独对Google有效,其他主流搜索引擎包括Yahoo!Live搜索及Ask均已提供支持。”

——搜索引擎协议网络宣传“无微不至”

笔者在谷歌(中国)和百度分别以中文检索“《国家标准 索引编制规则(总则)》”和“SiteMaps”,情况是这样的:

 

国家标准《索引编制规则(总则)》

SiteMaps

获得结果条数

最相关条数

获得结果条数

最相关条数

谷歌

55000

48

629000

641

(受显示数量限制)

百度

2020

7

10200

761

(受显示数量限制)

 

SiteMaps的网络宣传不仅铺天盖地,而且“无微不至”。

例子之一:谷歌的一位研究员在谷歌(中国)的博客网志“走近我们的产品、技术和文化”中发表文章《简单之美:布尔代数和搜索引擎的索引》,从介绍布尔是十九世纪英国一位小学数学老师谈起,娓娓道来,吸引受众无障碍进入,效果自然极佳。

例子之二:在“协议sitemaps.org常见问题解答” ⑸中,仅介绍Sitemap  XML 格式,就用了8Page。其中一段是这样的:“Sitemap 索引文件的 XML 格式与 Sitemap 文件的 XML 格式非常相似。Sitemap 索引文件必须:以 <sitemapindex> 开始标记作为开始,以 </sitemapindex> 结束标记作为结束。 每个 Sitemap 包含一个<sitemap> 条目作为 XML 父标记。 每个 <sitemap> 父标记包含一个 <loc> 子标记条目。 可选的 <lastmod> 标记同样适用于Sitemap 索引文件。注意:Sitemap 索引文件只能指定与其位于同一网站的 Sitemap。例如,http://www.yoursite.com/sitemap_index.xml 可包含 http://www.yoursite.com 上的Sitemap,但不能包含 http://www.example.com http://yourhost.yoursite.com 上的 Sitemap。与 Sitemap 一样,Sitemap 索引文件也必须为 UTF-8 编码……”简直到了啰嗦的程度。但不厌其烦地详细讲解,其可操作性自然就强。

豹窥一斑,由此约略可见搜索引擎的营销策略和手段。

——索引标准要千方百计“营销”自己

据“易观国际”报告,2008年中国搜索引擎市场规模达到51.5亿元SiteMaps等行业标准及其营销对于这一业绩的贡献虽然无从细分,但也可以想像得到。对此巨无霸,索引标准难以望其项背,也不大可能存在与之比肩的奢望,甚至不大可能走它们的道路。但是,巨无霸也是一点点成长起来的,它们的成长欲望,它们的发展方式,它们千方百计营销策略和手段,有没有值得索引标准学习借鉴的地方呢?

啰啰嗦嗦写下这些,目的仅在于此。

                                                 

参考文献

wiki.networkdictionary.cn/index.php?title ... 28K.[2009-4-15]-

2 opinion.voc.com.cn/article/200907/2009070 ... 17K.[2009-7-6]

www.nbit.gov.cn/homepage/show_view.aspx?i ... 48K.[2009-6-9]

4 googlechinablog.com/ 125K.[2009-7-9]

www.sitemaps.org/zh_CN/faq.php 11K.[2009-6-19]

www.chnvc.com/report/list_c2.html 25K.[2009-6-25]

 

周柏康  上海建桥学院信息图文中心副主任,中国索引学会常务理事。