分类搜索引擎对分类法发展的贡献及相关问题讨论 马张华
发布时间:2018-09-25  浏览次数:9

分类搜索引擎对分类法发展的贡献及相关问题讨论

(北京大学信息管理系  100871)

        文章认为,网络分类搜索引擎对文献分类法的发展表现在建立了一种以主题对象为中心的实用分类体系,探索和建立了电子环境下分类体系组织的一系列新的处理方法,也使得人们对分类法编制原理和影响要素有了更加完善的了解。文章还讨论了网络分类法编制的一系列相关问题及其发展前景。

关键词  网络分类  搜索引擎

1 网络分类体系对分类法发展的贡献

一个多世纪前,当年轻的美国图书馆工作者麦维尔杜威率先推出由他编制的带有标记符号的十进分类法时,人们并没有意识到这一当时看来略显简陋幼稚的分类法,竟标志着现代文献分类法的开始。同样,直到现在,许多人仍然没有意识到,Yahoo等一批网络分类法的出现,已经为我们开创了一种全新的适合网络环境使用的分类法系统。尽管目前使用的网络分类体系存在着不少问题,仍然有其粗糙和不成熟的一面,有的分类法甚至会出现一些常识性的错误,但实际上它们已经在分类法编制上带来了根本性的变化,提供了一种不同与传统分类法的,适合网络环境下使用的全新分类法形态,在分类法实践和理论上带来了一系列意义重大的突破。从分类法发展的角度去认识,网络分类法的意义是多方面的:

首先,分类搜索引擎建立起了一种以主题对象为中心的实用分类体系。传统文献分类法基本上都是以学科为中心建立的,因为这种方式符合人们的知识结构,比较适合一般用户对学术资源的使用习惯。上世纪初,英国图书馆学会布朗曾经编制了一个以主题为中心的分类法――《主题分类法》(Subject Classification),采用“一个主题一个位置,从而集中关于这个主题的全部资料”的方法[1],但这一分类表由于种种原因未能在图书馆得到推广。综合性分类搜索引擎则多数采用了以主题对象为中心的组织方式,这种方式按事物对象和学科分别设置类目,可以集中一个主题对象的有关信息资源,必要时以事物为中心建立两者之间的联系,逐步发展了一整套与传统分类法不同的类目展开方式。这种组织方式是按照主题为中心展开的体系,对事物对象的揭示形式直观,直接性好,比较符合普通用户按对象和问题检索的习惯,目前已经成为一种在网络上占主导地位的实用组织模式。这种以主题为中心的分类结构探索了按照主题对象展开体系的一系列方法和规律,无论对于实用分类法的编制和还是从分类体系编制规律的完整了解的角度都是一种突破。

其次,分类搜索引擎探索和发展了电子环境下的分类体系组织的一系列新的处理技术。这突出地表现在以下几个方面,包括:

    在类目体系纵向展开上,使用了多维划分和多元展开的形式。传统分类法由于文献排架以及手工系统的限制,类目体系展开时通常只提供一个检索入口,在一个领域中只采用一种选定的引用次序,网络分类体系则利用超文本链接,往往有针对性地同时采用多个引用次序,使用类似多表列类的方法同时设置多个类目体系,建立多维的系统,使得用户可以从不同的角度进行检索。

    在横向关系的揭示上,通过重复反映的方式,充分揭示相关主题,包括多属性主题和相关主题。Yahoo是最早使用重复反映类目的主题指南;其后,不少系统如Open Directory,国内的“蓝帆检索”等分类目录,汲取传统分类法的技术,同时采用类目参照的方式揭示相关类,使得横向关系的揭示更加完整。从实际使用的情况看,网络分类系统重复反映的范围远远超出了传统分类法揭示的类型,广泛应用到了多属性主题,总论与专论,资源形式与主题,地区与主题,机构、人物与相应知识门类等方面;至于类目参照的应用范围,目前则仍然在发展之中。这些发展极大变革了分类法横向揭示的能力。

    探索了超文本链接在分类法检索系统中的灵活使用形式。除重复反映类目、相关类目揭示等形式外,还发展了诸如根据使用需要动态设类,提前设置热点类等新的应用形式,增强和改善了分类法的灵活性和适应能力。

    发展了适合计算机环境的类目显示形式等,形成了适合用户使用的一种新的展示形式。这包括,发展了在不显示分类号情况下直接提供类目的浏览显示,提供直观的类目索引显示,分栏显示以及多种形式分类界面形式的探索等。

上述的努力使得网络分类法成为一种多维、灵活、通用的,比传统分类法更加适用的分类体系,基本上形成了计算机环境下分类法编制和使用的形态问题,使得网络分类体系在技术方法上成为一种具有不同于传统形式的,充分符合计算机特点的新的应用形式。网络分类体系与传统文献分类法的电子版不同:传统分类法的电子版虽然采用了电子形式,但本质上仍然是传统环境的产物,其类目体系的展开、横向关系的揭示,分类法形式的采用都带有传统应用环境的痕迹,本质上只是传统分类法的一种电子形式;而网络分类法则本身就是电子环境的产物,在体系展开和使用方式上无不带有电子环境所具有的一切特点。上述形式,为分类法在电子环境下的进一步应用和发展提供了条件。网络分类法在技术方法上的这一系列探索,必将对分类法在电子环境下的使用和发展提供了条件。网络分类法在技术方法上的这一系列探索,必将对分类法在电子环境下的使用和发展产生巨大影响。此外,为了解决网络信息资源的巨大数量与手工标引速度之间的矛盾,Open Directory等网络分类搜索引擎还发展了一种利用网上力量,进行网络分类工具编制的方式。这种方式广泛吸收众多的网络分类爱好者参加,由他们负责进行特定类目下信息资源的分类编制和质量控制,并建立起了一系列网络资源采集和标引的规范,只使用少量的专业人员负责整体的管理维护。这一系统自建立以来,运转正常,目前已成为网上资源数量最大的主题指南,Google等大型搜索引擎的分类目录就是它提供的。

再次,网络分类法的编制也使得人们对分类法的编制原理和影响要素有了更加完善的了解。传统分类法的编制和使用基本上是在手工环境下进行的,在过去分类法的编制和使用过程中,这一情况在很长时间里一直没有变化。因此传统分类法的编制,通常重视以知识分类为基础,逻辑分类为工具,并逐步重视和强调文献保证原则,但对用户保证的研究和重视则稍嫌不足,至于对分类法使用的技术环境方面的影响,考虑就更少,一般只在文献排架等问题上强调了单线序列和标记符号的简短性等。与传统分类相比,网络分类法在分类对象、用户需求、技术环境发生了巨大变化[2]。在分类对象上,与传统分类对象相比,网络资源数量大、种类多、动态性强;网络资源中包括的资源类型,如BBS、聊天室、新闻组、多媒体资源等,是传统文献资源所没有的;在内容分布上,新兴科学技术、商业、娱乐的资源成为主要的资源对象,作为图书馆主体的传统知识门类的资源则相对薄弱。用户需求上,网络的使用对象涉及到所有的终端用户,比文献分类法的用户更广,并且一般不通过中介进行操作,要求类目体系简明,具有较强的通用性、直接性,并且能满足从各种不同的角度查找的要求。技术环境上,传统分类体系是按照文献组织和手工检索工具编制的需要确定的,基本上为线性形式;网络分类体系则是以电子文本为处理对象,需要考虑电子环境的特点、屏幕显示形式等内容,链接技术的使用,使得它能够按照主题之间的关系和用户的需求,灵活、多维地进行揭示,在体系构建、类目设置等方面,发展出不同于传统分类法的技术特色。这就要求有新的、适合处理对象的分类架构。上述情况使得用户需求,特别是技术环境等因素成为网络分类法编制和使用中必须考虑的一个重要内容。这些认识必然使得人们对分类法编制原则的了解更加全面。

2 分类搜索引擎相关问题讨论

作为一种新的分类形式,分类搜索引擎的许多理论和实践问题受到人们的重新审视。下面是分类搜索引擎编制和使用中部分讨论较多的问题:

2.1 是否以知识分类为基础的问题

有一种观点认为,以科学分类或知识分类为基础会增加普通用户使用分类法的困难、影响分类法的通用性,因此在网络分类体系的构建中应抛弃以知识分类为基础的做法。我认为,这种观点实际上是对知识分类的误解而造成的。知识分类体系是人们对客观对象及其关系了解的基础上建立的得到广泛承认的知识系统。按照其分类的对象,知识分类包括科学分类、学科分类、事物分类、行业分类等不同的层次或类型。显然,依据知识分类体系为基础处理相应门类的信息资源,不仅有助于合理设置类目;同时,由于知识分类体系是得到社会广泛接受的系统,是广大用户了解的基本常识,因此,以这些体系为基础结合实际使用需要编制类目体系,不仅不会增加使用的不便,而且会有助于用户使用。例如,按照各级教育、各类教育这样广泛接受的教育分类体系组织有关教育的信息资源,按照行业分类体系为基础处理各个行业的信息资源,必然有助于合理、通用地组织分类检索系统。相反,不依据这些广泛接受的知识分类体系,任意设置类目,恰恰会影响分类体系的合理性和易用性。实际上,目前有影响的网络分类搜索引擎都是依据和参考一定的知识分类系统来进行分类体系的编制。以主题对象为中心,强调根据用户的需要为中心,并不会改变信息资源分类以知识分类为基础的方法。

2.2 大类设置的系统性问题

不少论者将网络分类目录的基本大类与文献分类法相比较,认为这类分类系统的计算机、旅游、娱乐等大类,就其知识关系而言,只是在文献分类法中工业技术、经济等类目的下位类,将其与商业贸易、科学等并列设置,未能够合理反映相应部门的知识关系,不如文献分类法系统[3]。这一看法有一定道理。但就实用主题与分类结构而言,这一处理也有其合理性,表现在:其一,这类类目设置是与网络资源状况和用户需求一致的。计算机、娱乐、旅游等都是资源数量比较多,用户需求量比较大的门类,将这类类目等级适当提高,较好反映了文献保证原则和用户保证原则,作为实用工具,这类处理有其合理性。其二,作为一种以主题为中心的组织结构,这类系统更加重视并适合根据针对性、实用性设置类目,而不象文献分类体系那样强调学科关系的系统性、完备性、均衡性。以Yahoo为例,其多数类目都是针对用户关注的对象设置的,重点突出,针对性强,只有在个别涵盖面较广的类目中,才适当照顾其覆盖面。这一点在Open DirectoryLookSmart中更加突出,整个结构基本上是以用户的生活需求为中心而建立的,有更强的选择性,类目设置也更加自由,DDC建立的网络分类结构基本上也采用了类似的处理思路[4]。这类处理在一定程度上反映了以主题为中心的结构与传统分类法不同。显然,这一类目结构是网络环境下用户需求、资源保证以及知识之间关系综合考虑的结果,有其合理性,体现了与传统分类法不同的技术路线。

2.3 关于对各种新技术形式的使用特点和规律探讨的深化问题

新的使用环境会产生新的组织和揭示形式。如前所术,在网络分类体系中,就出现了重复反映、多维揭示、动态调整等多种传统分类法中不可能采用的组织和揭示形式。这类形式往往是类目关系或需求与新技术手段结合的产物。要有效地把握和处理好这一系列表现形式,一是应根据对知识关系表达的需要,不断对使用形式加以改进。二是应善于发现使用的规律,并逐步深入制订相应的规则。以对多重关系的重复反映为例,目前许多网站的重复反映,实质上包括了传统分类法中交替关系、相关关系两种类型。因此,目前一些网站以单一的@的形式加反映,并不能确切反映与相关类目的关系。应当根据超文本链接和检索界面特点,以适合的方式,加以区分显示,方便用户选择。此外,如同传统分类法一样,对各种新的揭示形式的使用,也存在着控制问题。如前面提到的多重关系的揭示,虽然有利于充分揭示类目之间的联系,但也并不是越多越好,而是应当根据系统用户的需要,有针对性地进行。一般情况下,系统主要服务方向上的类目系统,类目设置应当详尽,关系的揭示应尽可能充分;对非服务重点方面的类目设置和多维关系揭示可相对简略。同时,各种形式的使用应适度,使其既能增加类目体系的功能,又能保持分类体系的系统性、规律性。这包括:在有重点地突出列类的同时,保持类目展开的系统性;在进行多角度列类、多表列类的同时,注意类目结构的规律性、简明性,并在整体上控制各种方法使用的度,使各种方法的使用保持在适合的状态。在分类体系与外部系统的结合上,也并非联结的系统越多,功能就越完善,效果就越好,而应当有所选择,使其尽可能做到结构简明,功能完备,以达到较好的实际效果。

2.4 分类法的标准化问题

国内不少论者对网络分类法的标准化比较重视,认为应该建立标准化与网络分类体系,有的还希望通过政府部门的支持实现这一目标。在这种讨论和努力中不缺乏真诚的努力,但也有不少是与商业化的目标相联系的。实际上,文献分类法的标准化问题,不是一个新问题。但是由于分类系统涉及到对知识关系的认识,信息资源的发展情况,具体系统的服务特点和需要等多种因素,很难像编目规则那样,推行一种单一的标准。到现在为止,各国都没有建立明确的文献分类法标准就是一个典型的例子。世界上使用比较广泛的文献分类法,如美国的《杜威十进分类法》、《美国国会图书分类法》、欧洲的《国际十进分类法》、中国的《中国图书分类法》等,虽然有广大的用户,有比较稳定的体系,但基本上属于一种事实标准。目前,网络信息资源正在发生变化之中,网络分类体系和技术方法还处在逐步探索和改进之中,各种实际的分类搜索引擎仍在不断调整变化,即使是各种实际使用的具体分类法,每天都在动态调整。试图在现在建立标准化的网络分类体系,规范网络资源的使用,显然是不现实的。我认为,信息资源分类法可以考虑采用的标准化方式有三种情况,一种,是将标准确定在基本编制原则和方法的层次,类似国内文献界建立的叙词法编制标准,而不是指定一种具体的网络分类体系,要求大家使用或向其靠拢。这样有利于方法和基本规范上的统一,同时又不会影响不同的系统在平等的条件下竞争发展。第二种,只在一定的范围或系统中贯彻强制性标准,如行业分类标准或一定领域根据管理需要建立和专业分类标准等。这类标准通常只限于在比较稳定的领域内进行,并在一定范围内实施。这类系统通常也存在着随时调整和更新的问题。第三种,事实标准的方式,即具体的分类体系在实际使用中因其质量优越而得到广泛使用和承认,成为一种事实上的标准,例如国外的《杜威十进分类法》、《美国国会图书分类法》,我国的《中图法》等,就是这样的文献分类法的事实标准;实际上,在网络上Yahoo某种程度上已经是一种事实标准。我认为,对于网络这样变动迅速的领域,建立权威的网络分类工具,使其广泛使用,发展成一种事实标准,是一种适合的努力方向。

2.5 网络分类法对传统理论方法的汲取和继承问题

我认为应包括两方面:一方面,应重视对传统理论方法的学习和继承;另一方面,也应注意根据网络环境的使用对原有的知识组织理论、方法进行改造和发展。文献分类法是100多年来图书情报领域研究比较充分的领域,一批有影响的文献分类系统就是建立在此基础上的。这些成果是电子环境下分类法发展的重要知识财富。汲取和继承传统文献理论方法,有助于在已有经验的基础上探索和发展适合网络环境的分类体系。同时,也应该看到,现有的理论方法,基本上是在传统文献组织和揭示环境下形成的,存在着如何与新技术环境结合,以及根据环境的变化进行调整的问题。因此,在应用超文本方法组织分类体系时,有必要结合新技术环境的特点,在汲取传统的理论、方法的同时重新对其加以审视。例如,传统分类体系中,对一类目包括的对象范围等的确定,诸如总论与专论,理论与应用,交叉关系等的处理,基本上是按照单线显示的方式加以限定的。在采用超文本形式的情况下,类目的收录范围究竟有哪些不同,应该作哪些调整?又例:对于相关类的处理,传统分类体系是在不适合多维揭示的线性结构的背景下进行划分和处理的,许多可以在相关类反映的信息资源,一般通过标引规则,限定其归属。在采用超文本技术的环境中,对这类关系的处理,究竟应当采用何种形式,可以有哪些变化等,凡此种种,都需要在电子环境的背景上,按照类目之间的本来关系,进行审视和调整。

此外,网络分类搜索引擎编制中,目前还存在大量的因操作水准造成的问题。例如,类目设置中质量问题,横向关系揭示上不一致问题,分类标引中质量问题,类下排列中的效果问题等。这类问题目前在网络分类搜索引擎中广泛存在,严重影响了这些分类工具的使用效果。相信这类问题将会随着时间的推移,逐步得到改善。

一个使文献分类工作者感到难堪的事实是,与网络分类法的自由应用相对应,直到今天我们仍然没有能够改变传统文献分类方法在图书馆检索系统中的缺席的状况。我们有精心编制的文献分类系统,有质量优越的分类数据,但是就是不能利用它提供浏览检索――这种检索形式网络分类体系早在上世纪九十年代中期(也就是十年前)就已经开始提供了。在目前的图书馆计算机检索工具中,分类检索是以最原始的方法使用的,你必须使用分类号,才能够进行分类检索。这就基本将我国图书馆长期以来分类目录为中心的传统根本上排除在外,更不要说分类主题一体化的应用了。据说,搜狐网站曾在北京的大学中进行过一次调查,发觉多数大学生从来没有使用过分类目录,也不知道分类目录为何物。我认为,文献分类法在电子环境下的实际应用的落后情况已经到了应该改变的时候了。在网络分类法不断学习传统分类法发展改进的同时,传统的文献分类法也应该低下高傲的头颅,学习网络分类法发展的一系列应用形式,探讨和解决在图书馆检索系统中实际使用问题。这本来是它应该提供的基本应用形式。

参考文献

1 刘国钧.现代西方主要图书分类法评述.长春:吉林人民出版社,1980P108

2 马张华.分类搜索引擎类目体系研究.图书情报工作,2001(02)

3 Martin.van der walt The structure of Classification Schemes Used inInternet Search Engines.Advances in Knowledge Organization,Vol.6(1998)

4 http:www.oclc.org/vizine/Dewey_Browse/ddc_Top.htm2004,4

马张华  北京大学信息管理系教授,从事检索语言、信息组织领域的研究。当前研究兴趣包括网络信息资源组织、动态自动分类等。