Open Directory剖析
金海燕 马张华
(北京大学信息管理系 100871)
摘 要 本文剖析了开放式分类目录搜索系统Open Directory在大类设置、类目划分和纵向展开、同位类排列、横向关系揭示、类名和注释等方面的特征。并指出了形成这些特征的原因――ODP规则,ODP规则同时也是系统发展的保证。
关键词 Open Directory 分类目录搜索引擎 类目体系 编辑规范
如何有效地组织快速增长的网络资源?目前比较常见的方式有两种:其一,直接利用计算机搜索和处理,建立关键词检索系统;其二,利用网络协作编目平台,由众多专业人员或志愿者共同参加,以人工方式对网络资源进行编辑和处理。
后一种努力中最为成功也最为典型的代表是Open Directory(开放式分类目录搜索系统,以下简称ODP)。ODP是目前网上最大的人工编制的主题指南,是国外使用最广的检索系统之一,并且在长期的实践过程中形成了采用网民共建方式编制和管理目录的独特风格。在研究网络资源组织的过程中,分析该系统的特点和管理特色是有意义的。
1 Open Directory概述
ODP创建于1998年6月,创建者为美国加州的一名程序员Rich Skrenta。目的是为了解决最广泛地收集、最便捷地检索、最普遍地利用资源的理念与少数参与者无法处理急剧膨胀的网络信息之间的矛盾。最初取名Gnuhoo,同年7月,更名为NewHoo,成为一个完全开放的、由网民共建的、网络共享的网络分类目录。11月被Netscape收购后,更名为Open Directory。从1999年4月起,ODP的数据被Lycos、Dogpile等搜索引擎相继采用。至2000年4月,ODP的数据库规模超过了Yahoo!,成为Internet上最大的网络目录。目前(2005.4.20),ODP由来自全球的67885个志愿编辑者维护管理,共设有59万多个类目,收录了400多万个站点。尤其在一些边缘学科或冷门学科上,其类目数量要比Yahoo!提供的全面得多。ODP与其他网络分类目录的主要不同表现在:由网民群体免费创建和管理,并且免费提供使用。ODP根据志愿编辑的特点,建立了一整套编辑管理体系和标引规范,可以通过网络用户的直接参与,改进网络资源的组织。目前,Google、Netscape、Dogpile、Thunderstone、Linux等著名搜索引擎都在使用ODP的数据库。
2 类目体系剖析
本文重点剖析ODP有别于其他网络分类系统的典型内容,而对其具有的通用网络类目特征仅作简单介绍。
2.1 大类设置
ODP设有16个基本大类。与多数网络目录体系一样,ODP采用主题对象与学科结合的设类方式。
表1 ODP的大类设置
Arts(艺术)
Health(健康)
Recreation(休闲)
Shopping(购物)
Business(商业)
Home(家庭)
Reference(参考)
Society(社会)
Computers(计算机)
Kids and Teens(儿童)
Regional(地区)
Sports(运动)
Games(游戏)
News(新闻)
Science(科学)
World(世界)
可以看出,ODP的大类结构是以主题为中心的,在类目设置上突出与生活密切相关的类目,如Games(游戏)、Health(健康)、Recreation(休闲)、Shopping(购物)、Sports(运动)等,而将与学科有关的类目,全部压缩在“科学”一个类目下。与国内的网络分类目录相比,其在大类设置中弱化学术性类目的倾向更加明显。
除了按主题对象设类外,ODP也从地区和资料类型角度设类,以增加检索入口,满足检索出发点不同的用户的需求。ODP的“地区”(Regional)提供了按大洲、国家和地区组织的各个主题对象的相关英文资源,而“世界”(World)则提供了按照ODP基本大类展开的非英语站点。这些大类的设置表明,ODP试图通过设置专门类目的方法将各种不同语言的站点纳入系统。ODP的多语言版本,是由全球各地志愿编辑人员的情况决定的,各种语言版本的收录资源数量差异很大,各类的分布情况也不均衡,参与编辑众多的类目已形成了几十种语言的版本,少的则只有英文版。
2.2 类目体系展开
ODP根据每个大类下覆盖的知识量以及知识组织的需要进行类目展开,形成详尽的等级式类目体系。比较突出的特点包括:
2.2.1 多元划分和多维展开
与其他网络分类系统类似,ODP也采用多元划分标准,在此基础上,按不同的引用次序多维度地展开类目体系。
Open Directory采用的划分依据通常包括:主题对象、学科、地区、国别、机构、资源类型、人物等,有时也直接按字母设置类目,但一般来讲,按字母设类只是一种补充的划分方法。通过超链接,在相应类下对相关类重复反映,使整个类目体系成为一个分别从主题内容、地区、资源类型、人等多维展开的网状结构。这样,可以增加检索的入口点,方便用户从自己熟悉的检索入口找到所需的资源。
与其他网络分类系统相比,ODP的类目设置通常比较规范,而对提前设置热点类等灵活设置类目的形式使用较少。
2.2.2 同位类排列
ODP使用三种不同的方式显示类目:
1) 直接按字顺显示。通常用于子类比较少的类目。
2) 分栏显示。栏与栏之间以横线相隔,栏内按字顺排列显示,不同栏通常意味着不同性质的类目,但并不严格。
3) 在类目显示的同时提供字母索引。方便用户通过类名字顺进行查找,通常只用于人名、国家名或一些子类数量众多的大类检索。用户检索时,只要点击字母,系统即列出该大类下所有以该字母开头的各级类目。
ODP的类目显示反映了主题指南中同位类排列方法的变化。单纯按字顺排列的形式主要不足,是无法揭示类目之间的联系,并且在同时采用多个划分标准的情况下给人以类目设置缺乏规律性的感觉。结合分栏排列可以在一定程度上改进使用效果。而在类目展开过程中引入字母索引则成功体现了按照逻辑层次展开与字顺查找的结合,是一种典型的分类主题一体化使用形式。
2.2.3 类目根据资源数量调整
ODP要求类目下资源数量超过20时,开始考虑子类的创建。因为超过这一数量,会增加检索的屏数,创建子类可以方便用户查找。这就规定了ODP类目体系会随着网络资源的增加而动态地扩展和调整。(当然,实际处理中,有的类目远超出这一数量,例如,Business/Industries/Transportation/Trucking/Truck_Sales/Used/类下包括五十个以上售卖旧货车的网站的链接。这是由于这些网站都提供相同或类似的商品和服务,不容易将它按不同的专题分类,所以只能将所有的网站保持在一个类下。)
2.3 横向关系揭示
ODP提供了多种横向关系揭示方式,以改进类目之间的联系,增强类目体系对相关性的揭示。
2.3.1 重复反映
用于系统中重复设置的类目,类似Yahoo,以@表示。是原类目还是重复反映的类目可以借助子类数量标注来判断:如Top∶Regional∶Countries(0)子类数量为0,即表示它是重复反映的类目。
2.3.2 类目参照
ODP用“See also”标识表示相关类目,用于揭示相关类目之间的联系,帮助用户进行相关资源的查找。ODP的相关参照不仅限于相关的类目,也包括上级类目。比如,“Sports:Football:American:Women”的参照“See also:Sports:Women”,后者是前者的上位类。
2.3.3 相同类的不同语言版本站点
可以用来检索该类的不同语言的资源,以方便同一内容不同文种资源的查找和使用。
2.3.4 联结不同检索工具的对应检索
该形式提供Google、All the Web、Altavista等搜索引擎的检索入口。直接点击相应类名,就可以把它作为检索词在这些搜索引擎中进行检索。
2.4 类目名称和类目注释
ODP的类名通过设置优先词表的方式加以控制。系统建有一个优先词表(PreferredTerms),设置类名时可以优先考虑该列表中的词。并以标准化和有用性作为命名原则,制定了一系列标准确保ODP的一致性。
ODP在每个类目后面都标注子类数量以揭示规模。此外,ODP还进行类目描述,提供类别定义、类别范畴和目的、该类别与其他有关类别的关系、提交该类目的网站须知等多种帮助,不仅有利于志愿编辑使用,也可供普通用户了解该类目的含义和处理特点。
3 编制和管理方式
动员广大志愿者参与编目,在一定程度上可以解决人工编制速度慢、不能及时全面地揭示网络资源的问题。但如何组织数量众多而又不断变动的志愿者有效地进行工作,对ODP而言,仍然是个挑战。从可以获得的信息来看,在长期的实践过程中,ODP已经形成了一套较为完善的编辑操作规范。
3.1 志愿者管理方式
ODP已经建立起包括编辑人员申请、操作等在内的一整套针对网络志愿者的管理规范。
3.1.1 开放式的编辑申请制度
任何人都可以提出申请,申请者通常应首先找到自己感兴趣的类目,并填写申请表,在申请中提供属于申请编辑的类别的三个例子网站。经老资格编辑成员组成的小组评审通过,即可成为一名编辑。这使得来自不同国家、不同文化背景、有着不同兴趣爱好的各种志愿者都有可能成为ODP的编辑,并发挥其专长。
3.1.2 层级管理制度
志愿者的申请由高层级的ODP编辑批准,一旦获得批准,即可获得编辑帐户。一个编辑员只能有一个帐户,从而杜绝了一人多帐户或多人一帐户的现象。如果编辑一个月内没有登陆账户或连续四个月没有进行编辑操作,该帐户将被暂停。帐户取消的决定,由高层编辑员讨论作出。
3.1.3 编辑规则
新加入的编辑一般只能申请一个小类,在积累了经验之后,方可申请编辑其他类目。上级类别编辑员有权对下级类别编辑人员的编辑处理作出改动。编辑员可以利用所编辑的顶级类别的论坛、其他论坛或者电子邮件方式进行交流,保证ODP的编辑质量。
3.1.4 公平编制原则
公平地选择、评价、描述和整理所有的网站,是检索系统编制质量的重要保障。为此,ODP对一些网站不负责任地提交或登录系统、歧视或干预竞争者的行为进行了限制并给出相应的处罚条例。包括:不允许具有商业背景的编辑员只登录和宣传自己的或有商业关系的网站;不允许不正当地更改其他网站的登录资料;不允许收受或索取贿款;不允许违反ODP的论坛和电邮隐私要求等。凡出现上述情况,其编辑权限将被取消。
这套管理规范保证了ODP的正常运转。
3.2 编辑操作的规范
为了确保一致性,ODP逐步形成了一套编辑规范,用以指导所有的编辑人员。编辑规范公布在ODP网站的Help内,分为具体编辑规范和通用编辑规范。具体编辑规范,通用类目描述来解释目录特征和收录准则;通用编辑规范则涉及资源选择和评价、类目设置和处理、资源标引、资源描述等内容。
3.2.1 资源选择和评价规范
资源质量的优劣直接影响了检索工具的使用效果。ODP一般收录两类网站:为某一主题贡献了独特的、有价值的信息内容的网站;在主题问题上具有不同观点的网站。也就是说,一个网站能否被收录,取决于网站的质量以及与该主题的其他信息资源相比所具有的独特性。具体要求为:
1) 完整性。链接能被正常使用,具有富有内容的分页。
2) 独创性。有原创的、珍贵的资料性内容,或者在重要问题中有不同的见解。
3) 时效性。一定的周期内应该有最新的资料。如果它已经失效的话,需要断定其档案或研究价值。
4) 可用性。该网站应该在合理的时间内能被登录,并经常性地在线。
ODP不收录的网站包括:联合营销站和镜像站点;打开提交的URL,会自动改变地址,最终到达其他网页的站点;非法站点;产品列表;类似通知的网站列表等。此外,针对成人站点、儿童站点、多语言站点、非英语站点、要求有密码的站点等特殊类型的网站,ODP制订了特殊的选择标准。
3.2.2 类目设置和处理规范
ODP规定,在类下资源数量超过20个,并且这些资源存在显著的不同主题的时候,尽量设置子类;多于20个但由相同对象的站点构成的类目,如直接浏览也比较方便,则不必急于设置子类。
子目设置的要点:建立子类时,应注意避免重复使用主要范畴的术语;类名确定应参考优先词表(Preferred Terms);优先考虑按主题子类组织网站;在按主题范畴设类时,可参考其他网络指南、目录和资源等的处理方式来确定细分类目;类目设置应注意与相关范畴的关系,避免建立重复类目;在无法进一步组织主题时则可考虑按字顺、按地区等处理或不分类;对数量多达几百的相同信息站点,可采用字顺处理方式;地区组织一般在其他类型组织不适合时进行,通常应注意不要重复地区分支中已有的类目。
类目调整的要点:可以在其目录分支里移动或重命名类目;如果子类里没有任何的资源,可以考虑删除该子类;相比于子类编辑,上一级类目编辑具有设置类目的优先权;为重复类目建立@连接。
为了便于编辑员和网上搜索者了解类目含义,ODP规定了类别描述的规范。其类别描述是开放性的,笔者认为,它是目前所有的分类检索工具中做得最好的。
3.2.3 标引规范
根据网络分类的特点,ODP对不同网站的分类方法作出了概要规定,同时通过相应的实例明确类目的处理方法。
ODP规定,大部分情况下一网站只归入一类。如一个网站包括很多不同的主题,通常应归入可以包括它的范围较广的类别而不采用归入多个专门类目的方式。一般只有主题网站涉及到特定地区,或对象为18岁以下青年或儿童时,才同时归入相应的地区或儿童与青少年目录;有较大研究价值且无法由一类目全面描述其内容的网站,也可以同时归入几个类目;只有在能为类目提供独特而十分有价值内容使得能为目录增值,才可以对一网站的部分内容做分析分类。此外,对于不同语言网站的分类也作出了明确规定,以及对于成人网站和儿童网站的归类等都建立了相应的指南。
ODP对于标引规则的规定总体上比较简略,往往使用实例、提供参考文献等方式明确类目的处理方法,必要时还可以通过交流的形式。此外,在个别类目的范畴描述里也包括了相应的分类规定。
3.2.4 资源描述规范
ODP对什么是一项好的描述作了尽可能详细的规定。规定不仅对客观、公正等原则进行了描述,还具体到对字母大小写、词法、句法以及它们的显示方式的要求。规定中枚举了“不要”、“不会”、“不应该”出现的内容并特别指出例外的情况。描述原则上相当于ODP的培训教程,其详细性使得编辑员能够在较短的时间内投入工作并且能够较好地保证质量。
ODP的著录包括:
1) URL。所著录的URL应经过验证,保证地址的正确性。著录时,删除多余的信息,如index.html,提高URL稳定性,防止错误链接。提供能带领用户进入网站主页的URL。
2) 标题(title)。ODP强调著录的标题应能识别网站,而不是描述网站。标题尽可能简明、规范,用中性的文字表述。
3) 描述(description)。描述一般不超过2行,ODP的描述=主题+内容。
4) 编辑注释(editor notes)。注释有利于编辑人员与同行交流,对相关性非常重要。
5) 日期(sort date field)。表示论文、评论等的出版日期。标有日期的网站列表将按日期排列,而不按字顺排列。显示在没有日期字段的列表下面。标有日期的网站不能成为酷站。6) 酷站(cool sitefeature)。一个类目中明显优于其他网站的那个网站可以被评为酷站,给予标识。这样的站点是关于该主题最权威、最完整、内容最丰富的网站。每个目录下酷站的数目不超过2个。
ODP的规则是目前网络分类工具中唯一向用户开放的规则,它是在系统发展的过程中逐步形成的,并在不断完善过程中。这套规则有效地保证了ODP的一致性,提高了分类目录体系的质量。当然,ODP在强调使用规则来选择和评价网站的同时,也强调用户友好性是第一位的,编辑人员不应该为了遵循标准而牺牲用户友好性,而是应该根据实际情况加以变通。
4 小结
ODP动员全球志愿者参与目录的编辑,在一定程度上缓解了资源增长迅速和人工编辑方式缓慢之间的矛盾,使其能够更新更快捷地提供服务。ODP的类目体系设置均衡,展开充分,一些类目由于有较为专业的爱好者的参与而在展开上存在独到之处;非赢利性保证了其分类体系比商业性分类体系更为客观和公正;ODP还发展了一些新的网络分类组织的方法,如多栏显示同位类、多样揭示横向关系等;此外,它的一套比较完善的管理和规范系统确保了目录资源的质量,并使得目录体系能够及时和有效地反映网络资源的实际发展情况。
当然,ODP也存在一些不足,如子类编辑水平参差不齐;用“See also”显示横向关系时,很多时候没有逆参照等。但就总体而言,它仍不失为一个优秀的网络分类目录体系,值得国内网络分类系统借鉴。
参考文献
1 http://dmoz.org/
2 http://dmoz.org/guidelines/
3 曾福兴.因特网信息资源搜索工具.情报科学,2000(11):1028~1029
4 马张华.分类搜索引擎类目体系研究.图书情报工作,2001(02):37~395 http://dmoz.org/help/geninfo.html
6 http://dmoz.org/help/cats.html
(本文所参考以上站点中的资料截至到05年4月20日)
金海燕 北大信息管理系03级研究生,研究方向:自动聚类、搜索引擎优化等。
马张华 北京大学信息管理系教授,从事检索语言、信息组织领域的研究。当前研究兴趣包括网络信息资源组织、动态自动分类等。