基于标引经验和机器学习相结合的多层自动分类 何 琳 侯汉清
发布时间:2018-09-25  浏览次数:24

基于标引经验和机器学习相结合的多层自动分类

    侯汉清

(南京农业大学信息管理系  210095)

        由于《中国图书馆分类法》的类目数目庞大和文献在各类目上分布的不均衡,导致基于机器统计学习的自动分类技术在此类多层分类上的力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过两种分类技术相结合的方法对信息资源进行分类,提出了用相关度度量来测定关键词和类目概念之间的关联,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配,并在小规模的测试集上得到了较好的效果。本文详细讨论此种分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。

关键词  《中国图书馆分类法》  分类矩阵  自动分类

 

1 引言

自动分类一直是一个比较活跃的研究方向。机器统计学习的自动分类方法是目前自动分类领域的主流技术,其中的支持向量机、决策树、朴素贝叶斯等算法已经是比较成熟的技术,广泛地应用到了各个领域,取得了较好的效果。这类分类方法需要对训练集进行大量统计训练,要求训练集在各个类目中分布比较均匀。它们大都采用面向行业的自定义分类体系,分类类目大多是浅层次的粗略分类,分类层次较少。

目前,国内图书情报机构都采用《中国图书馆分类法》(以下简称《中图法》)对其收录的图书、期刊、论文等信息资源进行分类。《中图法》是我国影响最大、使用最广泛的一部专业分类法。如何对信息资源进行快速有效的自动分类也是各图书情报机构亟待解决的问题。

由于《中图法》是一部专业的等级列举式分类法,类目详尽,基本类目达5万多个,复分、仿分后所派生出来的类目更是数量庞大。每个类目下所包含的文献分布不均衡,有些常用热点类目下的文献记录达数千条,而有些专深生僻的类目则仅有寥寥几条记录。因此,由于《中图法》分类体系的类目数目庞大和类下文献分布极不均衡,导致了机器学习算法对采用《中图法》为分类体系的文献资源自动分类显得有些力不从心了。

本文探讨一种新的分类方法是基于人工标引经验和机器学习相结合的以《中图法》为分类体系的多层次的分类方法(以下简称多层分类系统)

2 多层分类系统的构建原理

众所周知,《中图法》是我国使用最广泛、影响最大的一部图书分类法。国内各图书情报机构、信息中心以及文献数据库都采用《中图法》作为分类工具。这些机构保存了大量的人工标引记录,这些记录包含了分类标引和主题标引双重数据。根据情报检索语言中分类号、主题词和关键词三者之间的兼容互换关系,对这些数据进行有效整理,分析其分类号、关键词和主题词之间隐含的概念关系,即可构成分类知识库,其中包含大量的分类号与关键词串的对应款目,在此基础上就可以实现对图书、期刊、论文等的有效自动分类[1]。

但是,如果直接将词串应用于自动分类其实面临了两方面的难题:

第一、词串中存在着冗余词。在人工标引记录中有相当一部分自由标引记录。由多个关键词组成的词串是由标引员根据自身的理解选择和确定的,存在着一定的主观性。有一部分文献的标引词达6个以上,其中有些词对表达类目主题概念作用不大;有一部分文献的某些标引词属于通用词;有一部分文献的标引词在语义表达上存在重复现象。若将这部分标引词直接用于分类匹配将会对分类结果造成很大的误差。因此在应用于自动分类前,须对词串中的词进行有效的特征筛选。

第二、词串匹配的相符性比较。若将一篇待分类文献的几个关键词直接同知识库中的词串匹配,二者字面完全匹配的几率是很低的。目前采用字面相似度算法存在不少问题。如果改用语义相似度算法(基于语义词典或基于同义词词林)效果会明显提高,但速度太慢,无法满足需要。因此须探索采用一种较合理且易于实现的匹配方式。

根据情报检索语言兼容互换的原理,一个类目概念是由若干个关键词组配表达。每个关键词在表达类目概念中所处的地位和作用是不同的。也就是每个关键词与类目之间在概念上的依赖归属程度是不同的。若该关键词表达类目概念的能力越强,说明该关键词对该类目概念的归属程度越大;反之则越小。因此可以将这种归属程度进行有效的定量度量应用到测定关键词和类目概念的相关性中去。

上述相关性描述可用如下公式表达:

Class=ni=1keyword*association

某类目概念Class在分类描述上由《中图法》某一类号表示,在主题描述上由n个关键词keyword组配表达,association表示该关键词对表达类目概念的贡献,也即归属度。

在众多标引记录中,同一个关键词可参与表达多个不同的类目概念,但是在归属度上是不同的。

Keyword.associationClassA

ClassB

ClassN

因此不难看出在分类中可以将各关键词的归属度进行累加来衡量待分类文献同各类目概念之间的关系,通过关键词――分类号归属度的大小来衡量待标引文献所属的确切类目。

3 多层分类系统的设计

1  多层分类系统的分类流程图

  3.1 数据源及数据预处理

训练用原始数据主要来源于四种数据:

(1) 规范标引数据,采用《中图法》类号和《汉语主题词表》正表叙词标引,包括上海图书馆《中文社科报刊篇名数据库》、北京图书馆的中文MARC数据;

(2) 自由标引数据,采用《中图法》类号和散标自由词,包括重庆维普《中文科技期刊数据库》;

(3) 题名库数据,由中文文献数据库的标引数据中取出题名和分类号构建而成;

(4) 原始类表数据,包括《中图法》索引、《中国分类主题词表》中分类号――主题词对应表数据。

这四种数据采用不同的描述数据格式,有MARC、有文本、有数据表,词串之间的间隔有空格、短横、冒号等,还有全角半角格式。把上述数据进行数据格式统一,拆分,建立分类号――关键词对应表。

  3.2 自动分类知识库(分类矩阵)的构建

自动分类知识库(分类矩阵)的构建是自动分类的关键和基础。分类知识库的构建实际上就是构建(关键词,类目,归属度)矩阵。在已经形成的关键词、分类号对应表的基础上,通过适当的相关度度量,最后形成(关键词,分类号,归属度)三元组件为自动分类的基础和核心。在三元组构建的过程中,通过下列方法的筛选和衡量构建:

    3.2.1 支持度

表示分类号和关键词在整个对应库中同现的频次,即共现频次。

支持度Support(keyword,clc)=P(clc,keyword)=freq[CD#*2]gx

    3.2.2 置信度

表示在出现该分类号的前提下该关键词出现的概率。

置信度Conf(clc,keyword)=P(clc,keyword)/P(keyword)=Freq[CD#*2]gx/freq[CD#*2]keyword

其中,P(clc,keyword)表示在对应库中分类号和关键词同时出现的频次,也即共现频次Freq[CD#*2]gx;P(keyword)表示该关键词在对应库中出现的概率,也就是该关键词出现的频次freq[CD#*2]keyword

同时满足最小支持度和最小置信度的为强关联。

    3.2.3 相关度度量

有关相关度度量的方法有多种,互信息、系数方法、Dice系数、Cosine系数、Jaccard系数、开方统计,极大似然比估计等[4]。这几种度量方法在不同的环境下各有优缺点。根据文[4][5][6]的论述,考虑到样本数量很大的环境,拟采取Dice系数,辅以开方统计的方法作为主要统计方法。

dice=2*freq_gxfre_flh+fre_keyword

其中:fre_gxpc为分类号和词共同出现的频次,fre_flh为分类号出现的频次,fre_ztc为关键词出现的频次。

x2=N*(AD-BD)2(A+B)(B+C)(C+D)(A+D)

其中:A为分类号出现的频次;B为关键词出现的频次;C为分类号出现关键词不出现的频次;D为关键词出现分类号不出现的频次;N=A+B+C+D

通过上述衡量标准,最后形成(词,类目,归属度)三元组矩阵作为分类知识库。

例如人工标引词库中存在三条相似记录:

保税区  发达国家  生产总值  F112.2

保税区  发达国家  生产总值  综合国力  F112.2

保税区  发达国家  综合国力  F112.2

合并筛选后构成:

发达国家  F112.2/0.1196

生产总值  F112.2/0.0915

综合国力  F112.2/0.0866

保税区    F112.2/0.0712

这种构建方法既解决了关键词构成类似的记录在字面相似度匹配上的难题,也合理测定了各关键词在类目中的重要程度,也即关键词对类目概念的归属度。

3.3 分类方法

将筛选后的(关键词,类目,归属度)三元组来构造关键词一类目矩阵K-C(W1W2,…,Wi)表示关键词在每个类目中不同的归属度,其中Wi即为关键词i在各类目中的归属度。Wi=(Vi1Vi2,…,Vij)Vij表示关键词i在类目j中的归属度。待分类的文档经过主题标引之后形成的若干个关键词,逐一在矩阵中匹配,将匹配到的若干个向量存放到临时的矩阵TEMP中,匹配结束后对临时矩阵TEMP进行归并,取最大值Vmax对应的分类,赋予该标引记录。

Vmax=Max(ii=1Wi)=Max(ii=1jj=1Vij)

其中,i为矩阵中词的个数,j为矩阵中类目的个数。

4 讨论

上文从分类原理、分类知识库的构建上对基于标引经验和机器学习相结合的自动分类模式做了简单介绍,下文将针对具体实施中所面临的问题作一些分析讨论。

  4.1 是选择关键词,还是主题词

在构造(词,类目,归属度)分类矩阵时,影响分类的最大因素之一就是矩阵的维度。采用主题词控制分类号无疑比采用数量巨大的关键词大大降低矩阵的维度,准确地表达词与类目之间的关系。但是主题词的数量较少,更新速度慢。从文本中抽取的关键词,必须建立关键词―主题词对应表才能实现关键词到主题词之间的转换。即便如此,许多新概念也难以用现有的主题词表达。文[4]尝试构建的关键词―主题词关联概念空间需要在大规模文本统计的基础上才能完成。而且从关键词转换到主题词经常不得不采取靠词标引,会造成语义缺失或失真。

基于上述考虑,拟直接采用关键词来表达类目概念。但是新词的识别、分类矩阵的更新仍然是需要解决的难题。

  4.2 是采用一次分类,还是两次分类

《中图法》是一部详尽专深的专业分类法,仅社会科学11个大类就有数万个类目,因此在分类中,兼顾到分类的效率和效果,每次只能读入一个大类的知识库对文献进行分类。如果分类文献集构成较单纯,绝大多数文献为同一大类(即包括他类的文献量较少)时,调用某类的知识库就可完成对文献集的详细分类。

但是,社会科学几个大类中,经济、法律和教育等几个类目存在着一定的语义概念交叉,特征词相近的情况,在分类上较难把握和定量衡量。若待分类文献集由某一社科期刊(包括较多其他类论文)混杂构成且构成相当比例时,调用某类知识库分类时,就会把许多文献误分到相近类目中去。针对这种情况可采取灵活的两次分类方法,即先粗筛后细分。具体做法是:首先对类目进行一次粗略分类,确定文献所在的一级大类目,如FG类等,然后再根据大类筛选结果逐个调用相应知识库进行详细分类,这种做法可减少相近类目的误判(分类效果在测试部分分析),提高分类的准确率。

  4.3 分类等级(分类深度)的讨论

分类等级(分类深度)是指分类中,计算机根据分类知识库赋予文献的分类号的层次级别,如F832分类等级为4级。《中图法》的分类深度,可以达到六级或六级以上,由此可见其分类的精细和专深之处。然而机器分类的智能程度同人脑还是存在很大差距,不可能达到如此的精确。

3.2部分提出的分类矩阵的构建,在类目等级的控制上较为灵活,可以根据实际需要进行调整。4.2部分提出的两次分类,在第一次粗分定大类时,就需要在类目深度上降维(在测试方案中取2级分类),将类目归并,降低矩阵的维度实现各大类特征词一次性读入来完成对文献的粗分类。经过粗分类就可将构成混杂的文献集,按大类集中,之后再根据大类调用相应知识库来完成对文献类的详细分类。

5 多层自动分类系统的测评

本文提出的自动分类方法性能的评价,主要是通过同原来基于知识库匹配的自动分类系统[5]分类结果的对比来评价。拟采用的测评方案是:首先用文[5]的基于知识库标引词串的自动分类系统对测试集进行分类(称为新方案);然后用本文提出的基于人工标引经验和机器学习相结合的自动分类方法对测试集进行分类(称为原方案)。通过两次实验的结果来对多层自动分类方法进行对比评价。

测试数据抽取了2004年《全国报刊索引》数据中DFG类文献集的部分数据作为测试数据各5000条左右,其中每个文献集数据库各包含30%左右的他类数据。每条数据一般包含题名、文摘、关键词,部分不含文摘和关键词,只有题名。

关于评价指标目前仍借鉴信息检索领域的检全率、检准率以及F1值来综合衡量检准率和检全率。在分类系统中,我们将检准率对应为分准率,将检全率对应为分得率。

F1=2*分得率*分准率分得率+分准率

通过测试数据分析,发现新方案优于原方案,三个大类的分准率比原方案提高了5%8%13%F1值比原方案分别提高了5%8%10%

6 结语

本文探讨的分类方法是在基于经验标引的基础上,通过相关度度量和分类矩阵的构建等方法,实现了关键词与类目概念关系的有效度量。在一定程度上改进了原有的词串字面相似度算法[5]。提出的两次分类方案在文献集合构成复杂时优于原有的一次分类方案[5],以上方法在小规模的实验环境测试中得到了较好的分类结果。

当然,分类方法还有待改进。经过分析,实验结果受两方面因素的干扰:一是训练文本分布的均衡性,二是类目归属度划分的依据。训练文本在各大类间要均衡分布,如果某一大类收录数据过多,就会导致特征词在这个类下的归属度比实际值偏高,从而影响归属度在各类间的“公平性”。如何衡量训练文本的“均衡度”尚需进一步研究。另外,本次实验采用的是支持度和Dice测度的方式来衡量词和类目的归属度,如何更有效地标识二者之间的相关性也是今后需要研究的内容之一。


参考文献

1 侯汉清,薛鹏军.基于知识库的网页自动分类标引和自动分类系统.大学图书馆学报,2004(1)

2 张琪玉.关键词检索、概念检索和分类浏览检索一体化.巨灵研究报告.深圳巨灵信息技术研究所,2000(3)

3 侯汉清,薛鹏军.中文信息自动分类用知识库的设计与构建.情报学报,2003(6)

4 夏祖奇.基于关联概念空间的自动标引和自动分类研究.侯汉清指导.南京农业大学硕士论文,2004(6)

5 章成志.基于文本层次模型的WEB概念挖掘研究.侯汉清指导.南京农业大学硕士论文,2002(6)

6 代六玲等.中文文本分类中特征抽取方法的比较研究.中文信息学报,2004(1)

7 张雪英.基于粗糙集理论的文本自动分类研究.刘凤玉指导.南京理工大学博士学位论文,2005.5

 

    女,南京农业大学信息管理系博士研究生,主要研究方向智能信息处理。

侯汉清  南京农业大学信息管理系博士生导师,主要研究方向情报检索语言与情报检索。