网络信息组织与《中国图书馆分类法》搜索引擎版研制(下) 陈树年李青华朱连花
发布时间:2018-09-25  浏览次数:42

网络信息组织与《中国图书馆分类法》搜索引擎版研制()

陈树年  李青华  朱连花

(华东理工大学  上海 210502)

5.3 分类法中观结构体系的建构与技术

    所谓分类法中观结构体系,是指分类法各个局部的构成及其类目体系,是相对于分类法的整体结构和款目结构而言的。一部分类法编制的主要技术、方法都体现在中观结构体系建构中。建构《中图法》搜索引擎版主要采用以下技术:

交叉列类

    交叉列类,是将具有多重知识属性、多重形式属性、多重用途属性的信息,分别在不同等级的类目中列类的技术,这是构建立体的知识信息分类体系的基本技术之一。通过信息按不同属性的聚类,保证各个局部知识体系的完整性,满足用户可以分别从各自熟悉的知识点切入检索的需求。“交叉列类”与传统分类法的“交替列类”不同,它可以同时使用,“交替类目”须择一而用。例如:

平面设计

 设计艺术

建筑设计

 设计艺术

工艺设计

 设计艺术

多重列类

    是分面分类技术在列类中的应用,虽然多重列类技术源自文献分类法的编制,但在当今网络信息分类法中的动作更充分。广泛动用多重列类技术可以使事物(信息)按多种属性在同一划分层次进行聚类,不但提供了更多的检索入口,也减少了类目的划分层次。例如:

文学作品

 按体裁分的文学作品

 按题材分的文学作品

 按时代分的文学作品

 按国家分的文学作品

 按作者分的文学作品

系统列类

    系统列类是在类目划分时保证事物(知识、信息、学科、专业等)的科学性、系统性和完整性,只要有一定量的该类网络信息,就在类目中给予编列――尽管某些分类导航系统可能不收录该类信息。只有这样,当需要时才能给它规范的名称、位置,以及建立起与其他类目的语义关联。

逻辑列类

    逻辑列类有两层含义,一是类目划分时要明确分类标准,即便运用多重列类,也不宜使用过多的分类标准进行,特别是一个分类标准下只有一个类目时;二在类目的排列中应将用同一分类标准区分出来的一组子目集中排列,相同性质的子目则再按某种可理解的逻辑次序排列(自然的或人为的)。否则凌乱的类目将削弱用户借助知识体系发现新的信息需求的功能,分类法的“由此及彼”、“触类旁通”、“鸟瞰全貌”检索的优越性难以充分体现。与传统分类法不同,网络信息分类法可以充分使用“分段排列法”,即对一个类列中不同性质的类目进行分段排列,用一定的标识或空行使之醒目,既便于用户浏览筛选,又体现出类目排列的逻辑性。例如:

管理学

系统类目  管理理论  管理技术  工程管理  质量管理  知识管理  经济管理  公共管理

形式类目  论坛聊天  新闻媒体  协助组织  学术活动  会议展览  参考资料  个人主页

突出类目  客户关系管理  MPA/公共管理硕士  MBA/工商管理硕士

系统列类和逻辑列类,是目前搜索引擎的分类表编制中很突出的问题,例如:

管理学(新浪)

企业经营与管理

市场与营销

MIS/管理信息系统

人力资源管理

CRM/客户关系管理

会计学

审计学

案例研究

MPA/公共管理硕士

MBA/工商管理硕士

电子商务

管理心理学

这里既无系统性,也无逻辑性可言。借助文献分类法的成熟列类技术,将会使这种情况大大改观。

突出列类

    突出列类,是根据网络信息的数量和被检索的频率,把一些用户经常搜索的信息、热点信息突破它们在知识等级系统的位置,在较高的层次编列类目。突出列类的好处是为用户查找常用信息提供很大便利,可以把一些按逻辑等级在知识树中比较隐蔽的信息揭示出来,这是提高网络信息分类法实用性和易用性的有效措施之一。

突出列类,必然与系统列类和逻辑列类发生矛盾。如果采取重点在辅助分类体系中使用、或在类目排列时明确其是“突出类目”、或在类目注释中加以使用,并与“交叉列类”结合使用,那么实用性与逻辑性的矛盾就可以得到平衡。

5.4 分类法微观结构的建构与技术

    分类法的微观结构即类目结构,是构成分类法的细胞。网络信息分类法微观结构的基本元素与传统分类法大体相同,由类名、类级、类号和注释组成,但在要求上和编制技术上有所不同。

类名

    使用精炼、准确、通用的语词描述类目的含义,这是分类法类名的基本准则。采用“下位类承接上位类内涵”,即下位类的类名只显示同位类之间的差异点,它们共同的内涵则由上位类限定,这也是大多数文献、信息分类法所遵循的。在网络信息分类法中,考虑到浏览版面的简洁、用户界面的视觉效果,类名更为简短。

    为了满足信息标引,特别是自动标引的需要,以及采用非浏览方式直接检索分类系统的相关信息的需要,拟采用“双类名”制,即一套类名用于用户浏览界面,它是高度精炼的;另一套类名用于后台信息处理,均能独立表达类目的含义、能用于自动标引和类名检索。两者是同一类目的不同字面表达方式。例如:

前台类名(浏览界面)    后台类名(信息处理)

 文学评论            中国文学评论

    文集             中国文学评论文集

    古代             中国古代文学评论

    近代             中国近代文学评论

    现代             中国现代文学评论

      小说            中国现代小说评论

      散文            中国现代散文评论

类级

    类级是类目等级的标识,揭示类目划分的层次。在电子分类法和网络信息分类法中可以用来控制自动扩检和缩检,用来控制分类号的自动生成和校验,用来控制显示界面的字体和格式,在传统分类法中还用来控制排版的版面。类级记录在分类法数据的指定字段,电子分类法和网络信息分类法都是相同的。

注释

    说明类目的含义和使用方法是各种分类法注释的基本功能。类目注释又是分别面向信息检索用户和信息处理用户的,两者要求不同。传统印刷型分类法只能将两者统一在一本分类法中,而在网络信息分类法中,既有必要也完全可能将两者加以区分。

    在用户界面,类目注释只揭示类目的内容范围,而且以范围列举为主要方式,必要时辅以说明性注释。内容范围列举,不局限于该类的下位类内容,可以将本类(包括各级类目)重点、热点的内容,以及编列在较低层次但又有较高点击率的信息,在大类或其上一级类目的注释中列出,满足用户对常用信息检索的需求,也可以使用户通过注释进行跳跃式浏览,直接进入他所感兴趣的类目。这是目前搜索引擎分类导航系统通用的、行之有效的注释方法,但一般仅局限于大类,降低了其作用。《中图法》搜索引擎版将把这种注释技术充分进行发挥。

    在信息处理界面,注释主要是详细说明本类的内涵和外延,列举类名没有表达出来的事物或信息,供信息标引使用。下位类内容的列举,对信息处理人员来说是没有意义的。

这样,注释也就形成了两套,分别对应与前台类名和后台类名。

类号

    在传统分类法中,分类号具有组织文献信息目录和组织实体文献的双重功能,其构成和编制极其复杂。在网络信息分类法中,分类号的功能仅仅是类目的代号,用来实现类目在分类系统中的定位,被标引信息的定位(网站和网页),建立相关的索引数据库。由于分类号代表着类目的内涵、外延,信息一旦取得该标记就等于在分类系统中定位,当类名根据需要发生变化时(类名的修改、范围的调整等),已经标引的信息不受影响。属于交叉列类的类目、属于主要分类体系和辅助分类体系之间相关的类目、属于注释中列举的类目等,都通过分类号建立链接,便捷而稳定。例如:


120021  电脑与网络    (原来的类名)

120021  计算机与互联网(修改后的类名)

    由于分类号功能的简化,其编制要求也发生很大变化。基本要求是:有足够的容量、严格的等级制、构成简单、便于自动生成。类号配号的规律性、对应性可以给予必要的考虑,如按国家、按时代、按某种常见形式划分出来的类目等。而分类号的长度则不予考虑,因为它仅是用于计算机信息处理。显然,双位制的、单纯数字的等级制号码是理想的选择。例如

230085  仪器仪表

 23008500  仪器信表理论

 23008505  光学仪器

 23008510  分析仪器

 23008515  量仪

 23008520  记时仪器

 23008525  仪器仪表元器件

 23008530  计量标准器具

    使用程序自动配号,可以根据同位类的数量的不同,设计不同的号码间隔距离。号码系统生成后再人工进行检验、调整,通过机器学习掌握配号的规律。

5.5 功能的组合

    网络信息分类系统,是分类法――用户浏览界面――信息处理系统三位一体的系统。要实现三位一体的融合,分类法部分除了分类表之外还需要相应的辅助索引,以满足信息标引、信息检索以及分类法维护的需要。分类表:是网络信息分类组织、用户浏览检索的关键知识部件。简略类名表和详细类名表分别用于网络信息的浏览和后台信息组织。

用户界面:是检索系统生成的用户窗口,类目树与标引的信息索引数据库通过信息处理系统挂接,实现浏览查询。

    分类法接口索引:是行业、产品、学科、公文等国家和国家标准分类法与本分类法的接口,通过接口索引可以实现在本分类法中以不同的分类体系浏览网络信息。

    同义词索引:是类名及其注释中语词的同义词动态数据库,通过不断更新,满足从自然语言查找类目和相关信息的途径。未登录词索引:其后台是网络数据挖掘和知识发现系统,实时发现网络信息中分类表尚未包含的语词,通过自动分类、同义词识别后提出补充新同义词、补充分类法类目或注释的建议,再经过人工判断决定未登录词的使用。从而保持分类法知识体系及其术语与网络信息的紧密联系。

    信息索引数据库:是存放已标引信息的索引数据库。

    信息处理系统:是检索系统运作的核心,实现网络信息的标引、分类法的管理维护、用户界面管理等功能。


参考文献

1 陈树年.搜索引擎及网络信息资源的分类组织.图书情报工作,2000(4)31-37

2 马张华.分类搜索引擎类目体系研究.图书情报工作,2001(2)36-40

3 卜书庆.试论数字信息资源的组织方法――如何开发和应用传统文献分类法主题法.国家图书馆学刊,2001(4)46-49

4 刘延章.关于网络信息分类组织研究中的几个问题.中国图书馆学报,200329(5)16-18

5 陈树年.网络信息分类法研究.现代图书情报技术.2002(3)54-57

6 卜书庆,陈树年.《中国分类主题词表》修订的整体构想.中国图书馆学报.2000(6)

7 邹婉芬.搜索引擎分类体系分析与评价.图书馆学刊.200426(3)40-41

8 贺安定.编制《中图法・网络信息分类表》的构想.国家图书馆学刊,2002(3)


陈树年  男,1946年生,华东理工大学科技信息研究所研究馆员,研究方向:网络信息组织。

李青华 女,1961年生,华东理工大学软件与信息管理学院副研究馆员,研究方向:政府信息资源组织。

朱连花  女,1979年生,华东理工大学图书馆助理馆员,研究方向:信息组织、分类法。