中文信息自动分类用知识库的设计与构建
发布时间:2018-09-21  浏览次数:64

        在计算机智能处理技术远未成熟的情况下,基于概念语义网络的自动分类采用知识库技术,仍将是一种实用的选择。本项研究根据分类语言、主题语言、自然语言三者兼容互换的原理,以众多标引员的主题标引和分类标引的经验,即文献数据库实体中大量存在的文献分类号和主题词双重标引数据为基础,建立一个以《中图法》为基础的分类知识库――分类法与主题词表对照数据库。论文对构建分类知识库的思路、步骤及主要技术,包括关联度测度方案、标引词模式匹配、新词增补等进行了讨论。

    关键词  自动分类  知识库构建  分类主题一体化  《中国图书馆分类法》  《中国分类主题词表》

    Abstract: This project of automatic indexing& classification in Chinese is based on knowledge database.According to theprinciples of compatibility among the Library Classification,Thesaurus andKeywords,the knowledge database is constructed by the indexing data of recordsof bibliographic database.So it is a concordance database between class numberof Chinese Library Classification and descriptors of Chinese Thesaurus,Thearticle discusses the technical lines,steps and methods of design andconstruction of knowledge database,includingprovide the location weightingalgorithm for concept mining and a new method to enhance the ability ofrecognition of the unregistered words.

    Keywords: Automatic indexing; automaticclassification; construction of knowledge database;Chinese LibraryClassification; Chinese Thesaurus;Classification/Thesaurus System


    现阶段,实用的机助分类系统大多采用现成的通用分类体系(如《中国图书馆分类法》,以下简称《中图法》)来完成分类标引的过程。机器标引的样本语料映射到现成分类体系上,得到主题词(关键词)与分类号的关系,这些对应关系就是自动分类系统进行分类的依据。人们在做文本信息分类时,是依据人类自身经验知识库来进行的,而计算机的分类,也必须依据经验知识库来进行。本项研究研制一种用于自动分类的经验知识库,这就是分类号―主题词()对应库(以下简称分类知识库)

    众所周知,《中图法》、《中国分类主题词表》(以下简称《中分表》)为文献信息的标引提供了现成的知识分类体系。我国的许多文献数据库标引系统长期以来利用《中图法》等分类表进行了大量的期刊论文和图书文献的分类和主题标引,积累了丰富的标引经验。这些标引数据实际上相当于一个累积的标引专家知识库,经过处理就可以用作分类知识库,用于构建自动分类系统。问题的关键在于,我们怎样将以上这些标引数据整合起来,建立一个高质量、高效率的用于自动分类的知识库。

1 分类知识库设计思路

    任何标引―检索语言本质上都是一种主题概念的标识系统。由于标识及其组织方式的不同,于是形成了分别采用号码标识、受控语词标识、非控语词标识的分类语言、主题语言及自然语言。因此,分类号(类名词)、主题词、关键词三者之间存在着隐含的概念对应关系,或称之为兼容关系。通过等值对应、近似对应、包容对应等一体化措施,就可使这种隐含的对应关系显现出来,实现三者之间互相控制和转换。[1

    本项研究用分类号(类目词)控制主题词,用主题词控制关键词,实现三者的一对一、一对多的对应转换。在此基础上,可以实现分类语言、主题语言和自然语言标引和检索的一体化,实现自动标引和分类。本项研究不拟采用类似于编制《中分表》时的手工对应标引的方法,而是根据分类语言、主题语言、自然语言三者兼容互换的原理,以众多标引员的主题标引和分类标引的经验,即文献数据库实体中大量存在的文献分类号和主题词双重标引数据为基础[2],建立一个以《中图法》为基础的分类知识库――分类法与主题词表对照数据库。

2 分类知识库设计步骤

    分类知识库设计分为以下三步:

    (1) 基本库建设。由《中图法》及索引款目数据、《中分表》款目数据及国家图书馆CNMARC标引数据组成;合三为一,构成基本库;

    (2) 标引数据模式匹配。将《中国科技期刊数据库》(重庆库)、《全国报刊索引数据库》(上海库)标引数据与基本库的数据进行标引数据模式匹配,模式相同或大致相同的词串经分类号控制后,加入基本库;

    (3) 新词增补。模式不同的词串经词频统计后,作新词的增补,提高基本库对新词的反映能力。

3 实验数据获取及预处理

    本项研究以《中图法》的财政金融类为实验的学科范围,数据获取情况见表1

1  实验数据获取情况一览

数据来源

数据库名

获取方式

词串数()

标引文献量()

数据格式(实例)

分类号

                

中分表

ZFB.DBF

人工录入

738

中图法

ZTF.DBF

人工录入

372

MARC

MARC.DBF

自动套录

5335

9598

F812.42  F820.3

地方税收-税收管理

货币流通-计划管理

重庆库

ZKK.DBF

自动套录

47034

2702

F8F837.123

中国  财政 金融 改革 商业银行 经营环境 美国 信息化

上海库

SKBK.DBF

自动套录

78354

77746

同上

同上

  

131833

90046

 

    对获取的数据作如下预处理:

    (1) 半角到全角的转换。将主题标引字段中有关字符进行半角到全角转换,以统一字符编码,如将半角标点符号、阿拉伯数字,英文字母等转换成全角字符;

    (2) 词序位置调整。用专有名词(关键词)一览表抽取词串中的地名、国名、时代名、文献类型名等,将它们调整至词串末尾,例如:

    “工业经济学 改革  创新  中国  经济学”调整为:“工业经济学  改革 创新  经济学  中国”;

    “纺织工业 生丝  生产情况  94  巴西”调整为:“纺织工业  生丝 生产情况  巴西  94年”。

    (3) 上、下位词的处理。如标引词串中同时出现上位词和下位词,则将上位词去除。例如,将“综合财政  宏观经济  管理  财政”处理为:“综合财政 宏观经济  管理”。

4 MARC数据的分类号控制[3][4

    MARC数据样本MARC.DBF中,由于分类号与主题词()一般是多对多的关系,因此,就必须为每个主题词()确定一个唯一的分类号,也即为主题词()定类。目前,有两种常见的测度关联度的方法确定类号:信息对数量度法(IM)和最大似然估计法(LogL)

    本项研究对信息对数量度法和最大似然估计法进行了比较分析。利用数据库MARC.DBF作数据样本,分别计算IMLogL值。计算结果片断如表2

2  IMLogL值计算结果片断

分类号

主题词()

分类号主题词同现频次

分类号频次

主题词频次

IM

LogL

F830.91

股票-投资风险

1

96

4

5.45

4.60

F832.51

股票-投资风险

1

39

4

6.35*

5.50*

F830.9

股票-投资风险

2

1064

4

3.74

6.11

F832.5

股票-证券交易

1

281

6

3.97

3.08

F831.5

股票-证券交易

1

150

6

4.60

3.70

F832.5

股票-证券交易

1

3

6

8.51*

7.79

F830.9

股票-证券交易

3

1064

6

3.74

9.17*

F837.125

股票-资本市场-市场预测

1

45

2

6.90

6.22

F832.51

股票-资本市场-市场预测

1

39

2

7.04*

6.36*


    IM计算结果,可确定主题词串“股票-投资风险”、“股票-证券交易”、“股票-资本市场-市场预测”的分类号分别为“F832.51”、“F832.5”、“F832.51”;Logl计算结果则为“F832.51”、“F830.9”、“F832.51(*号标注)

    IMLogL的值与分类号频次,主题词频次呈负相关,而与分类号与主题词同现频次呈正相关,即分类号与主题词频次越大,IMLogL的值越小;两者同现频次越大,IMLogL的值越大。与此同时,分析可知,分类号、主题词频次对IMLogL值的影响程度远不如同现频次来得显著,即同现频次与IMLogL的关联程度较大。有鉴于此,在本文中,主题词的筛选通过分类号与主题词同现频次来进行筛选。

    最大似然估计法与信息对数量度法都是通过统计的方法确定两个事件的关联程度,但是哪一个更适合于确定分类号与主题词的关联程度呢?从样本库中,随机抽出300条记录作抽样统计,其中主题词()总数167个,分类号总数181个,需确定分类号的主题词()47个。根据最大似然估计法与信息对数量度法的计算结果,人工判别主题词()的分类号,前者正确数为35个,正确率为74.5%(35/47),后者正确数为27个,正确率为57.4%(27/47),前者高于后者,说明在小样本的关联度统计中,最大似然估计法比信息对数量度法更适用。在本文中,由于是小样本统计,所以决定采用最大似然估计法。

5 基本库的生成及新词增补

    根据LogL值计算结果,分别确定MARC库中的每个主题词()的分类号后,再筛选出共现频次大于或等于2的记录(769)连同《中分表》(738)和《中图法》(372)款目数据一起合并成为基本库,共1879条记录。

     MARC标引数据较严格地采用《汉语主题词表》进行人工标引,具有标引模式固定、质量可靠等特点。但是《汉语主题词表》中主题词更新迟滞,不能及时反映新事物、新概念,部分主题词又早已过时,《中图法》、《中分表》类目款目也存在着同样缺陷。《重庆库》、《上海库》采用自由标引,词汇更新及时,对新词反映有良好表现。由此可见,基本库数据虽具有较高的标引质量,但对新词的反映能力差,不利于对新知识、新概念的标引与分类。为解决这一问题,可利用部分《重庆库》、《上海库》数据作新词的增补。具体方法是:根据一定的标引模式匹配规则,从《重庆库》、《上海库》中匹配出与基本库数据标引模式相同或大致相同的词串加入基本库;对于标引模式不一致的词串,再进一步进行新词总词频,类词频及文本词频的统计,筛选出含有高词频新词的词串,并纳入基本库,以达到增补新词、扩充基本库之目的。

5.1  匹配规则的确定与处理

    为排除半停用词和通用词对匹配效果的干扰,首先剔除《重庆库》、《上海库》数据中的半停用词和通用词,这些词如:问题、讨论、观点、综述、作用、发展等;经过处理后的数据,其主题标引词()所含词数一般都在4个以内,5个词以上的极少。经验表明,标引词()中所含第一个词往往最能表达该篇文献的主题,第二个词次之,至于第五个以上的词则已与该文献主题内容有很大差距。据此,可以初步确定匹配规则如下:依据标引词()所含词位置的不同,给定其词位置权重分别为0.40.30.20.1,即第一个词位置权重为0.4,第二个词位置权重为0.3,其余依次类推;通过与基本库数据一一匹配,计算出该主题标引词()的总位置权重(设为P)后,确定筛选阈值为0.4。凡P大于、等于0.4,则认为该标引词()标引模式与基本库数据相同或大致相同,否则视为不同,续作新词的词频统计。

    《重庆库》、《上海库》主题标引词()与基本库数据匹配处理情况如表3

    从表3可知,《重庆库》标引词()标引模式与基本库相同或大致相同者占词串总数的56.2%,不同者占43.8%;而《上海库》则分别为71.4%28.6%,《上海库》相同比率高于《重庆库》,这也从另一个侧面表明,《上海库》的标引质量要明显高于《重庆库》。如采用词素字面相似度和语义相似度算法,还可以提高模式匹配的比例[5]。

    将《重庆库》和《上海库》标引词数据经分类号控制后,即可纳入基本库。本项研究根据实验系统的需要,只取同现频次大于或等于2的词串,《重庆库》和《上海库》的数据量分别为2710条和3508条。

3  数据匹配情况统计

 

完全相同(P1)

大致相同(0.4P1

不同(P0.4)

  

词串数

百分比

词串数

百分比

词串数

百分比

《重庆库》

5254

11.2%

21162

45%

20618

43.8%  

47034

《上海库》

20725

26.5%

35198

44.9%

22431

28.6%  

78354

  

25979

20.7%

56360

45%

43049

34.3%

125388

5.2  新词的词频统计与增补

    与基本库数据标引模式不同的词串,我们认为,其中必然包括了大量的新词,部分地反映了文献中出现的新知识、新概念或新事物。在分类知识库中,若也能有效地反映这些新概念,涵盖更多的主题内容,这对于提高自动分类效率是十分有益的。在自动分类作知识体系映射时,如果分类知识库中没有相应的新主题新概念,则自动分类过程也就无法实现,即无法对新主题给出相应的类号。由此可见,分类知识库要具有良好的开放性,必须具有不断容纳新主题的能力和及时更新词汇的能力。

    如何对分类知识库作新词的增补呢?我们首先理解一下语词的“重要性程度”这一概念。20世纪50年代,Luhn曾在Zipf第一定律和第二定律的基础上提出了词频统计标引法,即统计文献中语词的出现频率,确定上限阈值和下限阈值,去掉高于上限阈值和低于下限阈值的语词,剩余语词作为标引词。在这里,语词的重要性程度是用词频阈值来定量分析的,阈值较高的词,其重要性程度也高,即它能较好地反映文献的主题内容。在本文中,尝试从语词在语料库中的总词频、类词频和文本词频来判定该词的重要性程度。下面就给出总词频、类词频和文本词频的定义:

    总词频:某个语词在语料库中总的出现次数(P总表示)

    类词频:语词在某一类语料中出现的次数(P类表示)

    文本词频:语词在某一类语料中出现过的文本数(P文表示)

    那么,一个语词在某一类中的重要性程度W可用函数定义为:

     F(W)P类×PP

    下面以《上海库》数据库的标引词为例,说明增补新词的具体做法:

    (1) 统计所有语词的总词频、类词频及文本词频,并计算其重要性程度。统计数据片断如表4    (2) 重要性程度分析及阈值确定。

    语词重要性程度计算公式表明,语词在语料库中的重要性程度与类词频和文本词频成正比,而与总词频成反比,即语词在某一类语料库中出现的次数越多且文本数也很多时,表明该语词代表该类的特征越明显,而如果一个语词在语料库中总的出现次数很多,则其区分类别的价值越小。在表5中语词“按揭贷款”重要性程度最大值为4.50,很显然,“按揭贷款”属于类“F832.4”的可能性最大。那么,重要性程度值多大时才能准确认定某个语词的类属关系呢,这就是一个阈值确定问题。

4  统计数据片断

分类号

语词

总词频

类词频

文本词频

重要程度

    

F830.5

按揭贷款

8

1

1

0.13

楼宇按揭贷款的风险及防范

F837.11

按揭贷款

8

1

1

0.13

加拿大的住房按揭及按揭保险

F832.4

按揭贷款

8

6

6

4.50

按偈贷款操作中的问题及其对策

F832.4

按揭贷款

8

6

6

4.50

对“按揭贷款”的研究

F841

按揭抵押

26

1

1

0.04

国外按揭保险制度简介及启示

F842.4

按揭抵押

26

1

1

0.04

建立适合我国国情的住房按揭保险体系

F830.5

按揭抵押

26

2

2

0.15

按揭买房,怎么个搞法?

F832.4

按揭抵押

26

18

18

12.46

浅谈按揭贷款

    我们把语词的重要程度值分为若干个数值区间,并进行抽样统计分析,分析情况见表5。从表5可以看出,当一个语词重要性程度值较低时,其与某一类语料的类属关系(即正确率)亦较小,反之,当一个语词重要性程度值较高时,其与某一类语料的类属关系亦较大。当重要性程度值大于4时,其正确率一般达到50%以上,因此本文取重要性程度值大于等于4(W4)的记录用作新词的增补。其中《上海库》数据16886条,《重庆库》数据19820条。

5  重要程度值分析

重要程度值(W)

数据记录数()

百分比(%)

正确率(%)

W1

24469

48.9

20.7

1W2

3939

7.9

28.6

2W3

2252

4.5

44.9

3W4

1392

2.8

49.7

4W5

1203

2.4

51.5

5W6

711

1.4

61.9

6W7

1013

2.0

71.9

7W8

855

1.7

73.6

8W9

552

1.1

51.8

9W10

487

0.9

68.2

W10

13079

26.2

88.1

  

49952

100

    注:正确率经抽样统计得出。

    (3) 数据的去重与错误剔除。即去掉主题词串相同的记录,然后删除错误的记录。

    对从以上数据库挖掘出的新词数据进行去重和错误剔除后,两库分别有8948条、10546条记录。

6 分类知识库的生成

    将经过匹配处理的《重庆库》、《上海库》数据,以及增补的新词数据并入基本库,即得到分类知识库,共计27591条数据量。合并后对知识库记录进行去重,共计26964条记录,比基本库增加13倍,比《中分表》分类号―主题词对应款目总数增加30多倍。对应款目的大幅度剧增为日后的自动分类提供了方便。

    分类知识库的记录范例如下:

分类号

F842.9

F810.41

F830.45

F832.6

F812.42

F832.48

F832.4

 

主题词()

保险业-经济史-中国

国营企业-预算收入

银行业务-资金管理

外资引进-产业政策

农业税-税收-征收管理

BOT方式-投资方式-中国

抵押贷款-经营机制-信贷管理

数据来源

F

T

M

S

Z

N

N

注: 范例中来源字段字母表示如下,

T: 《中图法》及索引款目数据;       Z: 《重庆库》标引数据(匹配)

F: 《中分表》款目数据;             S:《上海库》标引数据《匹配》;

M: 中文MARC标引数据;             N: 《重庆库》、《上海库》增补新词数据。


7 结语

(1) 分类知识库的建立以《中图法》、《中分表》等通用分类表、词表为基础,并采用了中文文献数据库实体中存在的众多的分类号、主题词双重标引数据,因而有着良好的文献保障基础,正确率高。通常分类表―主题词表对应表的编制,由标引员绞尽脑汁为每一个类目及基本注释标引出对应的主题词和词串。这种方法费时费力,而且对应标引的结果缺乏文献保证,因而时而冗余,时而空设,隐含的、深层的概念往往标引不出来。

(2) 采用计算机自动生成,不仅可以克服上述弊病,高效实用,而且生成对应表的规模远远大于基本用手工编制的对应表,可以满足实现自动分类的需要。

(3) 开放性好,有利于专业或学科新词的及时增补,可以定期更新。

    当然,分类知识库建立过程也存在着一些问题和不足,如标引词模式的匹配规则、数据筛选阈值的确定、错误标引记录的处理以及如何减少人工干预等,都有待于进一步探讨。

参考文献

1 张琪玉.关键词检索、概念检索与分类浏览检索一体化.《网络信息检索工具发展方向与提高竞争力的途径(巨灵研究报告).深圳巨灵信息技术有限公司,20003

2  侯汉清,李波,戴晶萍.计算机建立分类法和主题词表转换系统的尝试.《面向21世纪的情报语言学》戴维民等主编.北京:北京图书馆出版社,20003

3 Viane Vizine-Goetz:.Subject Headings for everyone:popular library ofcongress subject headings with Dewey number.OCLC.Newsletter,May/June,1998

4 张雪英,侯汉清.分类表―叙词表转换系统的设计.《情报学报》194期,20008

5 侯汉清,朱益华.字面相似度算法的改进与基于词素的同义词识别算法.20017,手稿    

侯汉清 南京农业大学信息科技学院信息管理系,教授,博士生导师

    薛鹏军 南京农业大学信息科技学院信息管理系,硕士研究生