用于中文信息自动分类的《中图法》知识库的构建 侯汉清 薛春香
发布时间:2018-09-25  浏览次数:27

用于中文信息自动分类的《中图法》知识库的构建

侯汉清  薛春香

(南京农业大学信息管理系  南京 210095)

        分类号、主题词、关键词是三种主题概念标识,三者之间存在着概念对应关系,即兼容关系。中文文献数据库中存在着大量的分类号与关键词(或主题词)对应的人工标引记录。通过对这些数据的加工整理,以《中图法》类目体系为主干组织各学科领域的语词,从而构建出反映分类号与语词概念对应关系的《中图法》知识库,用以实现信息的自动标引和自动分类。本文详细讨论了该知识库的构建原理、结构、编制使用的关键技术以及主要应用等。

关键词  《中国图书馆分类法》  《中国分类主题词表》  知识库  知识组织系统  自动标引  自动分类


1 前言

随着计算机、网络技术的迅速发展,为了实现网络信息处理的智能化、自动化和精细化,以词表、类表语言形式出现的各种情报检索语言加快了与标记语言、超文本技术和其他软件技术的融合,出现了新一代的情报检索语言与自然语言的结合体――知识组织系统。

知识组织系统是指各种对人类知识结构进行表达和有组织阐述的语义工具,主要包括分类法、主题词表、语义网络、主题图、知识本体等。分类法和主题词表在信息资源的加工组织中发挥着重要的作用,而语义网络、主题图、知识本体则是针对第二代语义Web提出的知识组织系统。本文所讨论的《中图法》知识库也是一种知识组织系统,或称为用于自动标引和分类的专家系统,它建立在《中国图书馆分类法》(以下简称《中图法》)的基础上,通过机器统计归纳出众多人工标引记录中所凝结的标引经验,建立分类号、主题词、关键词之间的概念对应关系,从而实现对文献的自动标引和自动分类,进而实现概念检索。

2 《中图法》知识库构建的原理

分类检索语言、主题检索语言和自然语言是三种不同的情报语言系统,标识和组织方式各不相同,但在本质上是一样的,都是一种主题概念标识系统,分类号、主题词、关键词都可用来表示某一文献信息的主题概念。因此,这三者之间存在着隐含的概念对应关系,即兼容关系。

国内,大多数图书馆、情报机构和信息中心所拥有的文献数据库中存在着大量的人工标引记录,这些记录中包含分类标引和主题标引(主题词串或关键词串)双重数据。我们可以通过对这些标引数据的计算机处理,挖掘出分类号―主题词串―关键词串之间的概念对应关系,实现三者之间的兼容互换。在此基础上,可以构建一个自动标引和自动分类用知识库,实现中文文献的自然语言标引、主题规范、自动分类及概念检索。

不管是分类检索语言还是主题检索语言,乃至任何知识组织系统,都使用了分类方法。分类法采用公开的学科或专业体系,具有鸟瞰全貌,触类旁通的特点;主题法则采用隐蔽的分类体系――参照系统、范畴索引、词族索引;分类法已经成为分类主题一体化系统的主体。在网络时期,尤其Yahoo!成功运营之后,分类的思想已深入人心,从分类的角度组织海量信息更易为人们所接收和理解。《中图法》是一个建立在知识分类基础上、可用于信息组织的概念语义网络,之所以选择《中图法》作为本知识库的主干体系,是因为:

(1) 《中图法》是我国自编的一部大型综合性图书分类法,可用于图书资料、音像资料及其他类型信息的分类标引和检索。它在国内有着最广泛的影响和最众多的用户,虽然未被正式确立为国家标准,却早已被大家公认为“不是标准”的标准。

(2) 《中图法》自1975年首次出版以来,30年来经过图书情报领域和其他各专业领域专家四次修订换版,具有广泛的学科覆盖面、完善的知识组织结构、在等级式体系的基础上加入了分面组配的功能,能够适应现代文献信息分类自动化的需求。此外,《中图法》已建成了用最详细的元数据格式――MARC描述的《中图法》数据库,2000年出现了电子版,而且正在向网络版发展。

(3) 目前国内的几大文献数据库,如上海库、重庆库、清华库、万方库等的分类标引大多是以《中图法》为分类依据,选择《中图法》作为知识库的组织框架,可以直接利用这些数量巨大,现已达到数百万、上千万条的标引记录,从而免去类号转换的麻烦。

(4) 《中图法》从90年代起,已经实现了与国内规模最大、用户最多的叙词表――《汉表》的兼容互换,研制并出现了国内最大的分类主题一体化词表《中国分类主题词表》(称《中分表》)。近几年还完成了《中分表》电子版的开发,并在新版中大幅度地增加了入口词,加快了检索语言的自然语言化。这为分类检索语言、主题检索语言、自然语言三者在标引、检索中的互操作奠定了基础。

(5) 网络信息资源的组织是未来信息组织的主要任务。《中图法》适用于网络信息分类组织的可行性已得到了大多数专家的认同,而其也正在采取分面化、增加自然语言接口、增加超文本链接等多种措施,以适应网络信息组织的发展需求。

总之,在构建中文文献自动标引和自动分类系统用知识库时,选择国内最为通用的《中图法》作为知识库的主干,具有明显的优势。

3 《中图法》知识库与《中图法》体系的结构比较

《中图法》与其他的传统分类法一样,包括分类表(含附表)和类目索引两大部分。随着情报检索语言向分类主题一体化方向发展,《中图法》与《汉语主题词表》(以下简称《汉表》)融为一体,1993年《中图法》编委会,在《中图法》与《汉表》对应的基础上编制出版了分类主题一体化词表――《中分表》,从而使《中图法》的体系日臻完善。《中图法》体系图示如下(见图1)

《中图法》体系在文献手工标引时代曾做出卓著的贡献,随着信息加工向自动化方向发展,《中图法》体系应用于网络信息和自动化时暴露出如下弊端:

(1) 无论是分类表还是对应的主题词表或分类主题一体化的《中分表》都属于受控语言,自然语言入口少,用户使用不便;

(2) 《中图法》及其系统产品的着眼点是便于图书情报人员的标引和检索,而不是着眼于网络时代的普通用户的直接使用,因而过于强调词汇控制,忽略了检索语言与自然语言的结合;

(3) 人工编制,定期修订,八九年修订一版,更新慢,大量新词、新主题、新类不能及时收录;

(4) 受印刷版的限制,分类表、词表的规模偏小,类目和词汇数量少,难以满足计算机自动处理的需要。

1  《中图法》体系图

2  《中图法》知识库结构

正是因为现有《中图法》体系存在着上述弊端,所以有必要引进新的计算机和网络技术对《中图法》进行技术改造,包括采用统计方法和计算机编表技术,揭示分类检索语言、主题检索语言、自然语言之间的兼容互换关系,增加自然语言接口,扩充词表规模和加快增补更新,从而适应网络时代信息组织的发展。

本知识库以《中图法》为主干体系,包含若干个词表和词典,其中分类号―关键词串对应表为主分类知识库,即知识库的主体;抽词词典、停用词表、同义词表、义类词典是主题标引知识库;地名表、时代表、文献类型表等为辅助分类知识库;另外还有采用《中图法》知识库标引和检索的文献数据库。图2显示了本知识库的结构:

1、图2显示了《中图法》体系和《中图法》知识库的结构,两者都以《中图法》分类体系为框架,揭示了主题词串与类号的对应关系,均可实现文献分类主题一体化标引。两者相比,《中图法》知识库无论在内容、数量还是结构、功能上都优于《中图法》体系,更适合于文献信息标引的自动化和信息检索的智能化。

(1) 《中图法》体系只揭示了分类号与主题词及词串的对应关系,而知识库则揭示了分类号与主题词串、分类号与关键词串、主题词与关键词之间的对应关系;后者词汇直接来源于文献,更新比前者快,易于用户检索。

(2) 《中图法》体系只揭示了分类表中罗列出的类目和主题词串的对应关系;而知识库源于标引记录,包含了大量组合类目(仿分、复分时组配而成),类目数明显多于《中图法》体系;

(3) 在《中图法》体系中一个类号最多对应20个主题词(),一般是3-5个,而《中图法》知识库中类目最多能对应几百个词串,平均一个类目对应10-14个词串,如知识库中经济类一个类目平均对应15.7个词串,比《中图法》体系更能揭示类目的隐含概念;同时,词串数量大,便于自动分类中的相符性比较。

(4) 《中图法》体系的应用主要在手工标引和分类上;而知识库的规模大、容量大、更新快、可扩充性好,因而可以成功地应用于自动标引和自动分类,它不仅能保证较高的标引质量和分类正确性,而且在主题标引时不仅给出主题词还给出关键词,另外,它的同义词表及它的地名、时代、文献类型等的多重标引为信息检索提供了多个检索入口。

(5) 传统的知识组织系统与文献信息都是分立的,而本知识库则与用其标引的文献库相联通,即在某个类目体系下面直接就可以获取用该类号标引的文献信息,类似于网络环境下的目录型检索工具,即本知识库亦可用于网络信息的组织和检索。

4 《中图法》知识库编制的关键技术

《中图法》知识库的开发面临以下几个难题:

(1) 数据的整合。知识库原始数据主要来源于四类数据:①原始类表数据,《中图法》类目索引及注释、《中分表》中分类号―主题词对应表;②规范标引数据,包含《中图法》类号和《汉表》正式叙词,如上海图书馆《中文社科报刊篇名数据库》、北京图书馆《中文图书检索系统》;③自由标引数据,包含《中图法》类号和散标自由词,如重庆维普《中文科技期刊数据库》;④题名库数据,由中文文献数据库的标引数据中取出题名和分类号构建而成。这四种数据描述的格式不同,有的是MARC,有的是文本,有的是数据库,词串之间的间隔符有空格、短横、冒号等还有全半角之分。如何对这些数据进行整合、删错去重构建原始库是首先要解决的数据预处理问题。

(2) 一对多、多对多关系的筛选。原始数据中分类号与词串之间包含一对多,多对一和多对多的关系,而本系统中自动归类采用词串定类的方法,因此,必须设法为每一个词串确定一个唯一的分类号。

(3) 标引词串与知识库中的词串的相符性比较。由于实际上二者完全匹配的几率是比较低的,所以本系统采用词汇相似度计算来实现概念标引、概念定类。如何从语义的角度来比较两个词或词串之间的相似度,而不是单纯从字面角度匹配,是我们通过《中图法》知识库实现主题规范和自动分类亟需解决的难题。

针对上述难题,《中图法》知识库的编制和使用过程中要采用以下几个关键技术:

第一,在机器统计的基础上加入人工编辑审订完成词表的构建。

知识库原始数据主要来源于上述四类数据,首先要对这四类数据进行手工采集合并、删错去重构建出原始库。原始库中包括类号与类名词、类号与主题词、类号与关键词的对应,从中分别抽取语词以及类号与语词的对应来构建知识库中的词表和词典。

在知识库词表中以分类号―关键词串对应表的构建最为关键,以统计的方法来确定类号与词串之间的对应关系是该对应表构造的关键技术所在。主要通过类目频次、词串频次、类号与词串共现频次的统计,采用数据挖掘中关联规则发现的两个参数――支持度和置信度来建立类号与词串的对应关系,从而构建该分类知识库。

所谓支持度表示分类号和词串在整个原始库中同时出现的频度,即共现频次。共现频次越大表示越多的标引员认可该分类号和词串之间的概念对应,那么这样的标引结果就可以认为具有普遍的正确性。

支持度Suppoort(keyword.clc)P(clc,keyword)freq_gx

其中:P(cls,keyword)表示在原始库中分类号和词串同时出现在一条记录中的概率;可用分类号和词串的出现频次freq_gx表示;

一般认为,支持度>2表示该分类号与词串有概念上的对应关系,即有两人次以上认可这种对应关系。支持度越大表示这两者之间概念对应关系成立的可能性越大。

而置信度则表示在出现该分类号的前提下出现该词串的概率;

置信度Conf(cls.keyword)P(cls,keyword)/P(keyword)Freq_gx/freq_keywora

其中:P(clc,keyword)表示在原始库中分类号和词串同时出现在一条记录中的频度;即分类号的词串的共现频次freq_gx

P(keyword)表示该词串在整个原始库中出现的概率;可用该词串在整个原始库中出现的频次freq_keyword表示。

同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。当某一分类号和词串之间的支持度和置信度分别超过设定的阈值,则认为两者之间有很强的关联,即概念上的对应关系,以此来建立类号与词串的概念对应关系。

第二,通过相关度度量解决分类号与词串的多对一和多对多关系。

在原始库中分类号与词串之间是一对多、多对一、多对多的关系,为给每一个词串确定一个唯一的分类号,需要度量分类号与词串之间的相关度。测量分类号与词串相关性的方法有多种,如信息对数量度法、极大似然法、Dice测度等,这里采用Dice测度来计算词串对应的最佳类号。

DiceP(clc,keyword)12P(clc)+P(keyword)

2×freq_gx(freq_clc+freq_keyword)

其中:Dice表示分类号与词串的并发概率,从而确定两者之间的关联度;

P(clc)表示该分类号在整个原始库中出现的概率,可用其在原始库中出现的频次freq_clc表示;

P(keyword)表示该词串在整个原始库中出现的概率;可用其在原始库中出现的频次freq_keyword表示;

P(clc,keyword)表示该分类号和词串在整个原始库同时出现的概率,可用其共现频次freq_gx表示。

在一个词串对应多个分类号的情况下,Dice值最大的记录表示该记录对应的分类号是该词串对应的最佳类号。

第三,借助于《同义词词林》构建义类词典进行词串相似度的计算。

主题标引从关键词转向正式主题词、自动分类中词串相似度匹配以及概念的检索都离不开同义词的识别,因此需要在《同义词词林》的基础上构造一个义类词典,通过语义编码从概念上识别同义词,而不是简单通过字面相似识别同义词,是提高系统性能的关键之一。

《同义词词林》是一部对汉语词汇按语义分类的词典,共14个大类、94个中类、1428个小类,以树型结构来表示词的语义关系。《同义词词林》以单纯词为主,其中大多可以作为构成复合词的词素,依此构建义类词典。它一方面可以直接识别以词素形式出现的同义词,另一方面以其为语义工具,挖掘出以复合词形式出现的同义词组。

构建义类词典首先要将词素的字面形式分解转换成语义代码,以《同义词词林》分类体系作为语义编码体系,并作适当调整。

[语义编码] (大类)(中类)(小类)(小组)

其中,大类 (在写英文字母)

中类 (大写英文字母)(小写英文字母)

小类 (大写英文字母)(小写英文字母)(数字)(数字)

小组 (大写英文字母)(小写英文字母)(数字)(数字)(数字)

如:“商业”的语义编码为[Di180203],其对应的大类、中类、小类、小组的编号分别为:(D)(Di)(Di1802)(Di180203),其中“D”表示大类“抽象事物”,“Di”表示中类“社会政法”,“Di1802”表示小类Di18“事业行业工程”下的词群“行业”,“Di180203”则表示小组“商业”,以此来建立一个义类库,把所有的词素归入相应的语义体系结点中。

通过义类词典的设计,可以对语词进行语义分析,识别两个语词之间的语义距离,从而实现从关键词向主题词的转换,从语义相似的角度匹配两个词串实现自动分类以及概念检索。

5 《中图法》知识库的应用

本知识库以《中图法》为框架,以人工标引经验为基础,通过分类检索语言、主题检索语言、自然语言之间的兼容互换原理,建立分类号―主题词串―关键词串之间的对应关系,包含了丰富的词汇、大量的同义关系以及词串与类号的对应关系,能够广泛地应用于中文文献信息的自动标引、自动分类(归类),甚至概念检索上。目前,本系统已经应用于网页和期刊论文的自动标引和自动分类,图书也在试验之中。

(1) 利用抽词词典和停用词表进行分词,并借助于同义词表进行主题规范,实现中文信息的主题自动标引。

选择文献标引源,如题名、文摘、作者关键词、正文、参考文献等,利用抽词词典和停用词表采用最大正向匹配算法进行分词,统计词频、词数、位置权重进行排序输出标引词串,再结合同义词表进行主题规范,给出正式主题词。

(2) 借助分类号―关键词串对应表、同义词表,以及地名表、时代表、文献类型表实现中文文献信息的自动分类。

本文的自动分类是一种词串定类和概念定类,是一种基于实例的自动分类方法。首先,它是词串定类,而不是单词定类,提高了分类的正确性;其次,它是概念定类,在标引词串与分类知识库中词串进行匹配时,先进行字面相似度的计算,对于未能给出分类号的记录再利用同义词表和义类词典进行语义相似度的计算,从而在兼顾正确性和速度的前提下,给出最佳的《中图法》主类号;第三,它是一种基于实例(即标引经验)的分类方法,分类知识库中的每一条记录都是一个实例,与其相匹配来确定分类结果;第四,采用地名表、时代表、文献类型表对标引词串中的地名、时代、文献类型等分面进行单独归类,以改进《中图法》类目体系在自动分类上的弊端。

(3) 在自动标引和自动分类结果的基础上,并结合同义词表,实现中文文献信息的概念检索和多途径检索。

从标引的角度看,本系统给出的主题标引结果包括了关键词串和主题词串两个部分,这使得用户一方面可以从关键词和主题词两个途径进行检索,另一方面能够实现词串检索而不仅仅是单个词的检索;此外还可以结合同义词表增加检索入口以及利用义类词典实现概念检索,从而提高检索的效率。从分类的角度看,分类结果包括了主类号以及地名、时代、文献类型等各个分面的复分号,用户可以从主题、地名、时代、文献类型等多个途径来进行文献信息的分类检索。

6 存在的问题

《中图法》知识库是一个以《中图法》为框架构建而成的知识组织系统,采用了中文文献数据库中存在的丰富的类号与词串的双重标引数据,具有良好的文献保障和用户保障基础;在统计的基础上进行人工审订,保证了较高的正确率;同时,通过对大规模语料库的统计分析,利用计算机进行自动编制,克服了此前编制分类号-主题词对应表过程中依靠编制人员的主观想象和手工对应来构建词串与类号的对应关系的弊端。它基于《中图法》,却又比《中图法》具有更广泛的功能,它拥有丰富的词汇和语义关系,是一种基于概念的标引和检索用知识组织系统。

但是,尚存在一些需进一步解决的问题:

(1) 知识库的完备性。《中图法》的固定类目是有限的,但是组配类目则无法穷举,如何保证类目体系的合理完备?

(2) 知识库的及时更新。包括及时添加新类、新词,未登录词的发现是一个亟待解决的问题;同时还要考虑陈旧类目和语词的淘汰问题,否则知识库过于臃肿会影响系统的性能。

(3) 目前自动标引和分类使用的算法智能化程度不高,如何增加知识库的推理功能,引入本体的一些技术以改进知识库的性能。

(4) 引入超链接技术及标记语言等技术,使知识库由静态走向动态,由线性走向网状,使知识库更新换代。

参考文献

1   .网络环境下的知识组织系统.现代图书情报技术,2004(1)23

2 侯汉清,薛鹏军.中文信息自动分类用知识库的设计与构建.情报学报.200322(6)681686

3 章成志.基于文本层次模型的Web概念挖掘研究――基于概念语义网络的自动标引和自动分类研究.[学位论文].南京农业大学,2002

4 薛鹏军.基于知识库的中文网络检索工具――经济信息智能搜索引擎研究.[学位论文].南京农业大学,2001

5 张琪玉.关键词检索、概念检索与分类浏览检索一体化.巨灵研究报告,2003.3

6 侯汉清.建立以《中国分类主题词表》为核心的检索语言兼容体系.国家图书馆学刊.1998(4)353990

7 梅家驹.同义词词林.上海:上海辞书出版社,1983.10

侯汉清  南京农业大学信息管理系教授,中国索引学会副理事长。

薛春香  南京农业大学信息管理系博士研究生。