浅论Web 2.0环境下的图书分类检索服务
叶 伟
(黄浦区图书馆 上海200001)
文 摘 本文在web 2.0变革的背景下,探讨了图书分类检索服务的新形式,介绍了基于Tag技术的分类特点和检索特性,提出了以Tag标签为分类检索体系的升级模式。
关键词 web 2.0 Tag 分类 标签 检索
1 引言
当业界惊叹Blog、SNS等Web 2.0技术为新闻门户和社区网站带来的变革时,Web 2.0以更快的速度刷新了检索模式。如雅虎网站的社会化书签免费服务“收藏+”,帮助用户任何时间、任何地点,通过任何电脑终端对搜索到的网页实现存储、访问、管理,RSS订阅及基于标签(Tag)的网页检索,实现了Web 2.0应用方面的一举三得。用户搜索网页时,不仅可以将自己喜欢的网页轻松在线收藏,还可以与好友和整个社区实现分享。当用户达到一定规模时,社区化效应将逐步凸现出来,数千万用户贡献出来的网址收藏将帮助用户获得更好的搜索结果。这对传统的检索系统是一次革命性的跨越。同时推动个体网民成为内容的创造者或评价者,而非局外人,让每一个用户都可以参与其中。
2 如何普及Web 2.0检索模式
在国外,Flicker、MySpace、Del.icio.us等Web 2.0网站通过开放网络资源帮助他人存储共享照片或网址而获得成功。例如Flicker领薪水的员工仅有10名,却有数百万人为其提供、整理内容,数万人通过互联网发布内容,目前Flickr已成为一个拥有250万名会员的社区,成为Web2.0成功的最好例证。
Web 2.0检索使用与传统搜索不同的技术。在传统网站搜索引擎中起到关键性作用的指标是网站的级别、网页的链接数量和关键词的相关度。但是Web 2 .0搜索引擎则不同,以BBS搜索为例,需要加入更多的网民参与来判断帖子的优先级,比如说,分析帖子的标题、字数、回复数、发贴时间、是否是精华、是否是置顶,以及内容关键词等等,都拿来参与Rank值的计算。甚至要更深入地做内容的挖掘整理,上升到知识管理的层面上来做搜索引擎。
Web 2.0搜索打破一维化的搜集结果列表。提供较智能化的搜索结果,通过“内容分类+兴趣爱好”给予网民更好的用户体验。用户可以从门户上看到各个社区的精华,同时也能按照自己的喜好去搜索内容。通过这两种方式的结合来实现社区搜索的多维化展示方式。
Web 2.0搜索迈向个性化。在社区泡大的网民,对个性化有强烈的需求。采用“Web 2.0搜索”的方式,我们可以通过更加科学的手段来跟踪用户搜索关键词的点击和对内容阅读的偏好,更广泛和全面地分析网民的喜好和使用习惯,最后能向每一个网民提供人性化搜索工具。
图书管理需要自己的搜索,今天图书检索还面临一个很大的问题,就是搜索的智能化和公众参与性不强。由于数据库结构、系统软件以及后端服务器能力所限,很多图书检索停留在书目检索和馆藏信息上,或者简单的链接到电子图书上。检索画面和功能不能够有效的吸引网民的眼球。
图书检索系统也需要如门户网站功能相似的社会化书签服务,支持用户不受本地机的限制,在任何时间、任何地点,通过任何电脑终端存储、访问并管理自己的网址,与不同用户之间实现分享和RSS订阅,及基于标签(Tag)的图书检索。网上图书检索系统与搜索引擎的结合,帮助用户随时随地在线收藏自己搜索到的图书和评论,并在此基础上实现与其他用户的分享。随着“在线收藏”用户到达一定数量级,这种社会化效应也日益彰显:数千万用户将自己喜爱的图书和书评贡献出来,为其添加Tag,供其他用户搜索,实现了图书的从无序到有序的演进,帮助所有用户建立自己感兴趣的“热点分类”。这个可供搜索的热点分类,将为丰富和优化搜索结果、提高用户体验,带来更大价值。
3 以Web 2.0中的Tag功能构建新的图书分类检索服务模式
3.1 在Web 2.0环境下的图书检索服务Tag的分类作用举足轻重
什么是Tag?Tag是一种新的组织和管理在线信息的方式。它不同于传统的、针对文件本身的关键字检索,而是一种模糊化、智能化的分类。
(1)Tag总的来说是一种分类系统。Tag在中国并没有统一的中文名称,有的称之为“分类”,也有的称之为“开放分类”或“大众分类”,还有的称之为“标签”。但是Tag又不同于一般的目录结构的分类方法,首先Tag能以较少的词语表达细化分类,想像一下,一篇涉及面比较广的书籍,比如一本介绍西安变迁的书,可能会涉及到历史、地理、经济、文化、旅游、教育,可能谈到诗人杜甫、作家柳青。如果用中国图书分类法,按分类表结构进行分类的话,根本不可能按这本书涉及到的各个方面来分类,因为要细化分类,将使整个分类表结构异常庞大,更加不利于资料的组织以及查找。而Tag则不同,他可以自由地不考虑科学分类目录结构,而给内容进行分类,各个Tag之间的关系是一种平行的关系,但是又可以根据相关性分析,将经常一起出现的Tag关联起来,而产生一种相关性的分类。
(2)Tag也可以说是一种关键词标记,利于搜索查找。但是Tag也不同于一般的关键词,用关键词进行搜索时,只能搜索到文章里面提到了的关键词,但Tag却可以将文章中根本没有的关键词做为Tag来标记,比如上面那本介绍西安的书,人们可以标记为“地理”、“文化”、“西安”,也可根据自己的理解标记为“旅游信息”。如果标记上“旅游信息”的Tag,则可以将所有旅游信息的书全部关联起来,便于查找。
(3)Tag与普通分类法不同,它是按公众理解,通过出现率和使用率排名建立的,普通分类法一般在现有编制好的分类法基础上进行的。
(4)Tag的意义在于他的通俗、大众化、公众参与、贴近大众理解、运用方便,把繁重的分类工作化解到公众参与中,是开放性的分类检索。
您可以为每篇文章添加一个或多个Tag(标签),然后您可以看到网站上所有和您使用了相同Tag的文章,并且由此和其他用户产生更多的联系和沟通。Tag体现了群体的力量,使得文章之间的相关性和用户之间的交互性大大增强,可以让您看到一个更加多样化的世界,一个关联度更大的空间,一个热点实时书评的信息台。Tag为您提供前所未有的网络新体验。
3.2 Tag和普通分类的不同之处
许多读者对图书检索服务比较熟悉,可以简单地把一个Tag(标签)理解为一个分类,但是Tag和普通分类的不同之处也很明显:
(1)图书分类是预先就制定好的,该书怎么分,是专业采编人员按照标准对其分类。而Tag是在您写完文章或看完图书之后,根据自己理解添加的,更像是为其添加关键词;
(2)您可以同时为一本图书或一篇文章贴上好几个Tag(标签),方便自己和他人随时查找,而原先一本图书只能有一个分类;
(3)当该书在网上积累了一定数量的Tag之后,通过排名可以看出这本书最常出现Tag词语是什么,通俗讲也就是读者最认可最喜欢用的分类关键词;
(4)可以看到有哪些人对这本书使用了一样的Tag(标签),进而找到和您志趣相投的人;
(5)可以通过图书Tag(标签)查到其他相同内容图书。
举一个例子,比如说:您查到一本关于滋补养生汤的书并写点书评,原来您都是把这一类的书放到自己的“食疗”分类下收藏,但是有了Tag之后,您可以给这本书同时加上“养生食品”、“汤”、“食谱”、“食疗”等几个Tag,并让其他人分享。当浏览者点击其中任何一个Tag,他都可以看到您分类的这本书。同时您自己也可以通过点击这几个Tag,看看究竟有谁最近写过这方面的评论,或许彼此之间还可以交流一下读书心得,成为有共同爱好的书友!
3.3 使用Tag的好处
(1)如果读者为一本书添加了Tag,那么,您添加Tag的书就会被链接到图书查询网站相应Tag的页面。这样,就增加了您推荐图书的被访问机会,还能刊登自己的评论;
(2)其次,您可以通过Tag轻易地找到并搜索浏览您感兴趣内容的书或作者;
(3)同时,标签还带着社会化的属性,它的核心价值在于“分享”。您也可以通过Tag找到志同道合的书友,将他们加为好友,就使得图书之间的相关性和用户之间的交互性大大增强。
3.4 如何使用Tag
(1)在网上发表文章、评论或看到自己喜欢的内容可以添加Tag;
(2)多个Tag之间都是用空格分开;
(3)许多网站的Tag首页中显示Tag的字体、字号有大有小,字体越大、越粗说明这个Tag的使用频率越高。
3.5 如何添加“好”的Tag
(1)Tag用词尽可能体现自己对内容的概括、理解;
(2)能够与外界建立良好链接,便于搜索和查找;
(3)用词尽量简单明了,不要晦涩冗长;
(4)尽量使用大家常用的词语和网上出现频率高的词;
(5)没有特殊字符。
增加标签的方式完全由用户自主决定,不受任何的限制,因此这更加符合用户使用的顺滑感和提高检索结果的相似程度,将会极大的促进用户查询数字文件的能力,照片、视频等多媒体数字文件都可以打上Tag的标签进行管理。Tag本身绝对无法取代Yahoo和 Google这样的搜索引擎,但如果日后Tag的应用逐渐增长,那么搜索引擎的使用量一定会减少。
3.6 Tag与关键词的异同
(1)相同之处
在信息的索引寻找上,标签和关键词有相通的地方。
(2)不同之处
关键词更是标注内容的主题,而标签则是在对内容的个人理解上的私人标注,未必针对的是主题,标签的设定要比关键词更自由、更方便,标签就是自己关注、存储内容的标记或分类工具。比如标签可能是时间,也可能是某个地点。比如时间可以是书的出版年份也可以是故事发生的年代。但一个内容如果只用一个表示时间的Tag,那别人就会因为其表述范围过广而不知其意,也就违背了用户之间实现分享的理念,也就不会被搜索引擎排名。如果再添加其他几个Tag标签,那就可以很方便地被检索定位,并且提升访问率。
3.7 Tag会搞乱传统的图书分类检索吗
Tag的产生对数字数据的内容归纳和分类筛选起到很大的作用。这些数字数据包括图片、视频、文章、声音,在Tag出现之前,大量用户产生的数字数据是难以被索引、被搜索的,因为您无法从这些数据中提取关键字,也无法分析这些数据的语义。实际上Tag是让这些无法被电脑归纳识别、分类的东西,借助人的集体智慧,获得较好的筛选。
对Tag持怀疑态度的人所担心的是,主要是Tag作为一种人的集体参与行为,无法防止人们对Tag的滥用。就像email最终成了垃圾邮件最大的受害者,一旦Tag成为一种重要的数据组织方式,一些发送垃圾信息的人,可能会利用热门Tags宣传自己的商业内容和广告信息。其实新技术本身就是一把双刃剑。既然Tag是一种网络化的大众行为,那么人们也会建立一整套系统和方法来防止垃圾信息的泛滥。
对于垃圾Tag,也会象今天的email和聊天工具,出现 “黑名单”功能,屏蔽不可信用户。比如,我关心的是电脑辐射问题,从图书馆网站订阅或查询“电脑辐射”这个Tag,如果有人故意频繁地在垃圾信息上添加“电脑辐射”这个Tag,利用黑名单功能屏蔽这个用户。借助个人的黑名单功能,系统可以彻底屏蔽某些恶意用户,形成系统黑名单。
4 结论
图书分类是专业性很强的工作,在计算机书目查询系统中,分类号、索书号、主题词等内容均事先通过相关技术人员分编录入完成,取保其数据的正确。引入Tag,有人会担心这将颠覆传统图书分类检索的完整性和准确性。其实从技术角度讲是不存在的。在原有数据库结构上,外加一个数据库表,两个数据库表之间用关联字段连接起来,形成一个包含标签的数据库模式,这个模式允许用户给图书贴上任意多的Tag分类标签。读者可以参与图书分类,而这种公众参与的分类是一种“开放分类”或“大众分类”,更贴近大众的理解,更通俗易懂。传统书目中的数据库如书名、作者、索书号、主题关键词等专业性数据,仍由图书馆专业人员输入。从检索角度看,读者既可以进行传统的书目查询又可以进行贴近大众概括、理解的Tag词语搜索。总之,引入Tag分类标签的检索,将更加体现其用户的参与、体验和开放性。
叶 伟 男,1967生,上海市黄浦区图书馆网络技术部馆员。