图书大众标注评介
――以豆瓣网为例
羌 丽1 张学莲2 侯汉清1
(1南京农业大学信息管理系 210095)
(2中山大学信息管理系 广州 510275)
摘 要 主要对豆瓣网图书的大众标注进行调查和分析,在此基础上结合实例,将豆瓣网图书的大众标注与传统的主题标引进行比较,借此剖析大众标注的优点与存在的缺陷,并有针对性地提出一些规范意见和措施。最后憧憬豆瓣网在Web2.0时代下的发展前景。
关键词 大众标注 大众标注网站 豆瓣网 图书标签 主题标引 Web2.0
作为一种阅读方法,标注古已有之。近年来,随着网络的兴起与发展,一种超越印本、以数字内容为对象的标注――网络标注已经逐渐成为热门话题,诸多学者也对其展开了广泛的研究与激烈的讨论。美国互联网研究机构Pew Internet & American Life Project于2006年12月发布的一项研究报告显示,28%美国网民已经开始对互联网上诸如图片、新闻、博客等信息进行标注[1]。在Web2.0时代,大众标注以其自身的亮点吸引着学者和众多的网络用户去关注它、使用它。同时,一大批大众标注网站的发展正逐渐步入轨道,如del.icio.us、Flickr、豆瓣、Digg、Yahoo!MyWeb2.0等,这些网站在自己特定的服务范围内,为网络用户提供网页、图书、音乐、电影、博客、图片等多方面的标注。本文主要对豆瓣网站的大众标注功能进行观察与分析。
1 大众标注与大众标注网站
标注历史悠久,但目前对标注还没有一个统一的定义,不过各种说法的本质基本上一致。概括来说,标注(tagging)就是通过对文献进行主题分析,识别其重要特征,赋予确切的检索标志(如类号、标题词、叙词、关键词、人名、地名等),用以反映该文献内容的过程[2]。从这个概念可以看出,标注的原理与文献标引的原理是相同的。网络标注就是标引技术在网络环境中的体现。
大众标注(folksonomy)是网络标注更为普遍的新形式,是Web2.0环境下的信息组织方法之一,也有人称之为大众分类。可以这样理解,在大众标注环境下,人们可以根据自身习惯去自由选择语词对网页、博客、图书、音乐、图片等进行标注,以方便以后对这些资源的管理、检索和使用,而这些语词又被称为标签。
顾名思义,大众标注一个最明显的特点就是将“大众”二字发挥得淋漓尽致。传统的主题标引及元数据标注时,主体创建者只包括两类人,专业人员和作者;大众标注则增加了另一个大众群体――普通网络用户。他们正逐渐取代前两类人的地位,成为大众标注的主角。
从另一个角度来看,大众标注又体现出人以外的大众化,即语词的大众化。传统标引使用的语词,很多是标引员精心选择的受控语词;而大众标注中的标签来源于范围广泛的自然语言,这样就不要求用户必须受过特殊的专业培训,必须使用受控词表,他们自由地使用除了那些受控词之外的,大众非常熟悉的非控语词,这正是大众标注被广大网民接受的一个重要原因。
最初大众标注网站主要服务于书签的网络化管理,被称为Social Bookmarking Website[3]。经过几年来的发展,大众标注网站扩大了自己的服务功能,在原先的基础上又增添了资源共享的功能。这是一种突破狭义资源的共享,不是简简单单的数字信息的共享,比如网络标签本身,更包括了以这些标签为纽带建立起来的一种社会人际关系网络的共享。
2 豆瓣网及其图书标注
豆瓣网是一个集博客、交友、小组、收藏于一体的新型社区网络,已被公认为中国Web2.0时代最纯粹最精彩的先锋网站[4]。作为大众标注网站的一个典型代表,豆瓣网的标注范围主要包括图书、音乐、影视和博客等领域。现对照普通文献的主题标引,对豆瓣网的图书标注作实例分析。
2.1 豆瓣网概况
豆瓣网(www.douban.com)成立于2005年,作为一个大众标注网站,它不同于一般的门户网站,在保留浏览功能的同时,更多的是呼吁用户的广泛参与。豆瓣网的创始人杨勃正是利用亲友、同事在做选择时的影响作用,并将这一作用扩大,让我们在更大的社会交际圈中,挖掘彼此之间潜在的共性,以促进更广泛的交流。
注册为豆瓣成员后,你就可以看到最近最受欢迎的图书、音乐、电影,同时你也可以以自己的习惯来记录、收藏、评价感兴趣的内容,并与他人分享。在你有了一定的收藏量之后,系统能够自动根据你的兴趣爱好给你推荐图书、音乐、电影等。此外,豆瓣网也是一个很好的交友平台,在那里你可以随便光顾其他任何成员,查看他们的简介、收藏、推荐和发表过的评论,若是趣味相投,你还可以把他加为“友邻”,成为朋友或是你关注的人;豆瓣网还提供了各种话题的小组,让你在评论之外进行各种交流。实践让我们坚信:豆瓣――参与越多,收获越多!
2.2 豆瓣网的图书标注
随着电子商务的发展,豆瓣网成了多个实体书店的集合体,让你的选择成百上千地增加。你可以检索你喜欢的图书,看到别人的评论以及读书的朋友,同时你也可以自由地发表自己的见解。在豆瓣网,每个成员都可以创建自己的图书收藏,自由地添加图书标签。
豆瓣网的图书标签来源于用户的图书收藏,这些标签都是由普普通通的网友自己创立的(user annotation)。点击首页的“读书”,就能看到豆瓣网中所有的图书标签汇总,按照它们出现频次的高低排列,如图1所示(2008年4月26日14时12分截取,豆瓣网所有图书标签的第一页)。经粗略统计,豆瓣网的图书标签数量已经达到207,000个左右(截止2008年4月26日10时)。
豆瓣成员可以建立自己的电子图书书架,将自己感兴趣的书收藏起来。在收藏时,为了自己使用方便,用户可以给图书加上任意的非控标签,系统不会排斥任何一个表达,同时显示其他豆瓣成员常用的一些标签(按使用频次排列),供你参考。如果你已经有了收藏的记录,系统也会在旁边给出“我的标签”(即你自己已经使用的标签,也是按照使用频次排列),供你浏览。如图2所示,表明当某个用户想收藏韩寒的《三重门》这本书时,点“收藏”弹出的对话框。用户可以在左侧的“标签”栏中填入自己想要的标签,同时右侧列出了其他豆瓣成员关于这本书常用的标签以及他本人已经使用过的标签供他参考。
图1 豆瓣网图书标签汇总
图2 豆瓣网图书收藏
3 图书大众标注与主题标引之比较
现在很多人将大众标注称为“大众分类”、“分众分类”,认为这是一种分类系统。这里的“分类”只能是就其效果而言的,起到了一种按事物聚类的作用,仅是一种模糊化的分类,不同于严格意义上的文献分类。主题标引是依据一定的主题词表或主题标引规则,赋予文献词语标识的过程[5]。从其原理来看,大众标注的本质接近于普通文献的主题标引,核心都是赋予加工对象内容主题的语词标识。与传统图书馆的主题标引相比,大众标注有其自身的特点。
3.1 大众标注的优点
(1)标注工序去复杂化
根据是否使用词表,主题标引分为受控标引和自由标引两种。受控标引一般需要经过文献查重、主题概念分析、查表选词和确定标识等一系列复杂过程。而大众标注则大大简化了这种工作程序,比受控标引更方便、快捷、灵活,节省时间与劳力,提高了工作效率。
(2)标注者不受限制
主题标引一般是由文献加工单位的一个或多个专业人员完成,而大众标注可以由任何人来完成,同时降低了对标注人员的专业要求。类似于维基(wiki)方式,在豆瓣网,同一本书能被任意多个不同的用户添加标签,一个用户也能标注任意一本图书,还能对自己已经添加的标签进行修改。由于标注者的教育程度、文化水平以及思考问题等方面的差异,同一本书的标签是多姿多彩、千差万别的。
(3)标注词不受控制
主题标引尤其是受控标引时,只有正式叙词才能成为标引词,而大众标注冲破了叙词、关键词、题名词等界线,赋予了形式的全能化,即标签可以是任何一种表达方式。字的书写形式可以不一样,简体与繁体并存,汉字与汉语拼音同现,如标注钱钟书可以是钱钟书、钱锺书、�锺�等,用“haha”表示哈哈;语言没有限制,中文占绝大部分外,还包括英文、日文等,有的甚至是多语言的混合,如management、バガボンド画集、思考ING;一串数字或字母也可成为标签,如33333、eeeeeee等;其他还有好多特别的,如#、?!、哎呀……总之,用户的标签不受控制,既减轻了用户的智力负担,同时又增加了检索路径,使用户可以通过口语化的表达快速地找到所需的内容。
(4)标注的自由度大
虽说自由标引摆脱了词表的控制,取得了一定的自由度,但还是有一些基本要求和规则的。比如标引词要求完整、规范,若标引“江苏省政协会议”,不可标引为“省政协会议”,必须将“江苏”这个地名同时标出,而且标引时一般不选用口语词汇。此外,自由标引中规定了很多标引模式,供标引员参考。豆瓣网的图书标注就不需要兼顾这些要求与规则,自由程度超越了自由标引。此外,主题标引时,标引人员主要是从文献的主题内容出发,选用叙词、关键词等来组织和揭示文献。大众标注则是标注者在对内容的个人理解上的私人标注,针对的不一定是内容主题,比如标签可能是编号或是时间,也可能是个人的感受或想法。
(5)标注功能扩大
与主题标引相比,大众标注的目的除了未来检索的需要,还为用户提供了表达自我的机会,以抒发感情或是引起他人的注意。当用户阅读或使用信息资源时,信息内容会和用户自身的知识、情感、所处的环境等发生作用,使用户产生一定的想法,或形成一定的认识。许多用户会通过标注来表达个人的想法、观点和态度[6]。正是Web2.0带来的变革,使得豆瓣网的图书标注不仅仅局限于揭示出图书本身的内容,它还允许用户标注出自己的观点、感想等。比如,有人给《梁实秋散文集》这本书贴上“想着他拿着纸扇站在父亲旁边的时候”,或许这就是他读完这本书后对作者最深的感受吧;再如,“力荐”是豆瓣中出现次数比较多的一个标签,很多人将一些他们认为很有价值的书标为“力荐”,在表明自己对这些书认可的同时,也希望把它们介绍给别人。
此外,图书标签还可以扮演记事本的角色,如一些人把自己收藏的书种添加“有空看”、“有空看看”等来拟定自己的读书计划;还见过一位网友,应该是一个学生,他在收藏《老舍散文》这本书时,添加了“老师叫的”和“读的散文集”这样两个标签,来提醒自己这是老师推荐给他们的课外阅读资料。
综上所述,我们可以看出,豆瓣网将图书等文献信息标签化,运用了人类大脑本身所熟悉的那种多重的关联,不像传统意义的文献标引,具有很大的灵活性。与新浪、搜狐、腾讯、网易这样一些门户网站的读书频道相比,标签成为豆瓣网图书的结构成分,标签的多样化取向、个性化取向,将这种结构呈现出更为生动与有趣的聚类[7]。
3.2 大众标注存在的问题
豆瓣网的图书标签就像脱缰的野马没有了羁绊,可以自由自在地奔跑!就好比没有了向导,沙漠里的旅行者不知走到哪里才是最好的。图书标签的不拘一格也不是十全十美的,没有了约束,也就容易迷失。正因为用户参与的广泛性、标注的随意性,图书标签免不了存在一些缺陷。与主题标引相比,大众标注最明显的不足就是过于自由。
笔者对豆瓣网的图书标签进行了抽样调查,随机选取50本图书作了观察与统计(2008年5月14日19时28分),大众标注的不足可以总结为以下几点:
(1)图书的标签数参差不齐
主题标引时,每本图书的叙词数一般维持在3-8个,很少有超过10个的。在抽样的50本豆瓣网图书中,标签数量从0到1967不等,平均每本书含标签数为257.8个,可见图书标签容量很大。目前在豆瓣网还不能看到一本书的所有标签,只能看到出现频次排在前面的十个标签,这样给管理带来了很大的工作量,而且给用户的使用造成了一定的限制。
(2)用户标注时存在错误
主题标引人员一般都是专业人士,多数情况下他们应该不会出现低级错误。而在抽样时却发现大众标注还是挺容易出错的。在标注《问题》(余虹等著,2003年1月1日中央编译出版社出版)、《要短句,亲爱的》(法国彼埃蕾特・弗勒蒂奥著,2002年人民文学出版社出版)这两本书时,都有网友给它们贴过“人民大学出版社”这个标签,这是明显的错误。还有一种情况是文学体裁的错误,如标注鲁迅的散文集《朝花夕拾》这本书,豆瓣成员共给它添加了34个标签,排在前八位的是:鲁迅(77) 散文(51) 朝花夕拾(29) 中国文学(27) 文学(13) 中国(10) 中国现当代文学(8) 小说(7),为什么错标的标签“小说”还会有这么高的使用频次?
(3)系统缺乏对词形的控制
在主题标引尤其是受控标引中,有着严格的同义词、准同义词以及词形的选择和规范等词形控制手段。而在大众标注中,虽说一个概念的不同表示方法可以给用户的检索带来方便,但是像“钱钟书”与“�锺书”,“人民大学出版社”与“中国人民大学出版社”,“管理学”和“management”等用来表示同一个意思的词语,没必要地增加了网站的负担,使标签数量急剧增加,不便于管理和利用。此外,在大众标注网站中应当允许多个同义词并存,但是错误的词应当予以杜绝。
(4)系统对标签的管理松散
受控标引所用的叙词表有着良好的结构,使用者可以较方便地多角度去查找所要的内容。虽然豆瓣网系统对20多万个图书标签进行了频次统计,但要查看所有标签比较麻烦,得逐页浏览。系统提供了标签检索功能,但却没有按标签频次检索的功能。此外,并不能笼统地说,频次越高,标签的实际语义就越好,比如“s”这个标签,截止2008年4月26日19时14分时被使用的次数为381,像这样一个简单的字母真难很快看出来它所表达的意思。同时,频次较低的标签占了总数很大比例,尤其是只被使用过一次的标签数约为114,247,超过了总数的一半(2008年5月8日19时30分统计,标签总数为212,000)。虽然不能说它们全部没有太大的意义,但至少可以说明绝大部分不是大众所看好的,而且标签过于分散也不便于检索。
(5)标签意义可能混淆
不同的用户会把同一个标签用在不同的地方,从而导致标签意义含糊不清等问题。举个例子,刘若英的《一个人的KTV》中出现了“ktv”这个标签,而假如有一本介绍键盘磁带检孔机(Keyboard Tape Verifier,简称KTV)的书,某个这方面的爱好者收藏时也添加“ktv”这个标签。它们都是“ktv”,但前者是音乐领域里一种很流行的卡拉OK形式,后者只是一种机器,两者是截然不同的。两个完全不同的概念硬是被“ktv”这个标签混合到一起。
(6)系统的推荐不是很合理
用户在收藏某本图书时,系统会提供“豆瓣成员常用标签”供用户参考。如《红楼梦》这本名著,经过系统的统计,列出“豆瓣成员常用标签”为:红楼梦古典文学曹雪芹小说经典古典名著中国名著文学古典(2008年5月14日20时14分下载)。这样的推荐有几点不妥:虽然“小说”被使用次数很高,但不够专指,最好能推荐出更精确的下位概念,如“长篇小说”、“古典小说”等;“古典名著”、“名著”、“古典”这种具有包含关系的词相互重复,给出“古典名著”即可,同样,“古典文学”与“文学”给出前者即可。这两方面的问题在豆瓣中俯拾皆是,抽样的50本图书中,有22本图书出现标签不够专指的现象,有35本图书的标签出现包含词同现。除此之外,同一本书的不同版本或是同一系列的书推荐的标签不一致。同是钱钟书的《围城》,ISBN号为9787020024759的是:钱钟书围城小说经典中国文学婚姻文学现代文学中国中国小说;ISBN号为9787108016751的是:钱钟书小说围城中国文学经典文学中国钱锺书名著中国小说。
4 改进大众标注的若干建议
“非控词表与生俱来的问题导致了大众分类的局限与弱点”[8]。为了使大众标注走向更健康的发展道路,需要采取一定的措施引导。豆瓣网不能仅局限于做表面的统计工作,而且要整合这些标签。有的学者曾指出,对用户进行有关自由标注方法的教育,可以提高大众标注的资源组织效率[9]。针对豆瓣网图书标签存在的上述问题,在此提出一些改进建议。
(1)对同义词进行控制
系统进行词形的控制,让越来越多的用户使用最规范的表达形式。比如,当用户输入“小波”或是“小波先生”、“王小波。”、“小波波~”时,系统最好能通过检查,推荐用户使用“王小波”即可,这样就不至于搞不清“小波”是指“王小波”还是“吴小波”,同时减少标签的数量,提高系统的效率。在此基础上,系统可以经过筛选,提供一个经过控制的同义词表,当然这种控制不会像叙词表那样严格,只是对标签的优选,让用户在这个词表中选择标签。系统也可以提供一个后控词表,不需要用户选择,而是由系统从后控词表中选择规范的标签推荐给用户。
(2)用户标注倡议
提醒用户在标注工作完成后,最好能核对标签,看看是否有明显的错误。如果发现,应及时改正,免得以讹传讹。同时系统最好能有后台检错机制,对用户提交的尚未发现的错误进行修改。此外,豆瓣网最好能在用户当中做一些宣传教育,让他们的标签不要太离谱,过于非主流,同时让他们要慎用只出现过一两次的标签。
(3)明确标签意义
系统最好能识别标签的意义,对于那些意义不明或容易混淆的标签提醒用户做进一步的修改,使一个标签最好只对应一个概念,而不要出现一个标签跨越多个领域,从而给检索带来麻烦。在这一点上,主题标引对同形异义词的区分还是值得借鉴的。如标注《服装模特-(基础知识)》这本书,如果用户只简单地贴上标签“模特”,系统要能发现这一问题,并建议用户改为“服装模特”。
(4)优化系统推荐
系统推荐的标签是根据后台的统计数据给出的,但不是所有排在前几位的就是这本书最好的标签。而且系统推荐的这些标签对用户有一定的影响,因而它的推荐在一定程度上引导标签的发展,所以要提高推荐标签的质量。比如金庸的《神雕侠侣》这本书,豆瓣网在2008年4月27日推荐的标签是:金庸武侠神雕侠侣小说武侠小说经典爱情中国文学香港,其中“武侠”和“小说”可以不提供,有“武侠小说”这一精确表达即可。对于同一本书的不同版本或是同一系列的书,系统可以模仿主题标引的做法,进行合理去重,给出统一的推荐。
(5)完善标签管理功能
目前豆瓣网的图书标签数量已经非常庞大,用户查找有些不方便。逐页浏览所有标签已经开始不能满足用户的需求,而且用户很多情况下不能看到某本书的所有标签。这两方面还有待进一步加强标签的管理。此外,系统在允许用户修改、删除自己所贴标签的同时,还可以借鉴del.icio.us上的“bundle tags”功能。它们是让标注者自己分类管理标签,大概就是把自己属于同一类的标签再给出一个大标签,这样每个人就有可能减少同义词的使用情况,对同一概念选择固定表达的几率会比较大些。
(6)逐渐形成标注规则和模式
当然这只是一些最基本的规定,在这方面可以向普通文献的自由标引取经。经过上述一些措施,再借鉴自由标引的技术,争取能够在大众标注网站的网民中达成一定的共识。
近年来,Samantha、HemalataIyer、Diane Neal、AbebeRorissa和Jung Won Yoon等人就如何构建具有高效查找与搜索功能的大众标注系统开展了一系列研究[10]。在不破坏豆瓣网图书网络标注的“大众化”特性的情况下,对其进行适当的规范化处理是有利于其发展的。Web2.0不仅标志着互联网发展的新阶段,而且也深刻影响着图书馆的发展,国内众多高校早已瞩目豆瓣网的成功经验以及它对大学生阅读的导向作用[11]。我们期待豆瓣网的进一步完善,使之成为网络时代最兴盛的读者俱乐部,大学生不可或缺的读书共享空间。
参考文献
1 Lee Rainie.28% of Online Americans Have Used the Internet to Tag Content. [2008-07-20].http://www.pewinternet.org/search.asp
2 张瑜等.网络标注的主要方法概述.图书情报工作,2008,52(1)
3 林芳,孟连生.大众标注网站服务功能与运营模式分析.图书情报工作,2008,52(1)
4 张林东.一颗长势良好的“豆瓣”.上海信息化,2007(5)
5 马张华,侯汉清.文献分类法主题法导论.北京:北京图书馆出版社,1999
6 常唯.论网络环境下用户标注的价值与应用.图书情报工作,2008,52(1)
7 汤雪梅.网络图书馆与读者俱乐部――门户网读书频道与豆瓣网之比较.青年记者,2007(3-4)
8 Adam Mathes. Folksonomies-Cooperative Classification and Communicationthrough Shared Metadata. Computer Mediated Communication, December 2004
9 孟连生等.标注及其演化研究.图书情报工作,2008,52(1)
10 孟连生等.标注及其演化研究.图书情报工作,2008,52(1)
11 黄静.从豆瓣网看Web2.0环境下高校图书馆信息服务的变革.科技情报开发与经济,2007,17(29)
羌 丽 南京农业大学信息管理系本科生。
张学莲 中山大学信息管理系硕士研究生。
侯汉清 南京农业大学信息管理系教授,博导,中国索引学会副理事长。