基于语料和基于标引经验的自动分类模式比较
薛春香 夏祖奇 侯汉清
(南京农业大学信息管理系 南京210095)
摘 要 以传统文献分类体系为框架,构建知识库或分类器来实现信息的自动分类是信息加工自动化的一个发展方向。这种自动分类系统一般有两种模式:基于训练语料和基于人工标引经验。我实验室分别在这两种模式的基础上设计开发了两个不同的自动分类系统。本文将详细介绍这两个自动分类系统的结构、设计及其构建,然后分别从原理、知识库构建、分类算法等方面对这两者进行比较分析。
关键词 自动分类 语料库 标引经验 知识库 《中国图书馆分类法》
1 前言
自动分类是信息自动化处理中较为活跃的一个领域。早在50、60年代,IBM的Luhn等就展开了文献信息的自动分类研究。近年来,美国OCLC和欧盟又在信息资源的自动分类和主题识别领域开展了多个研究项目,如OCLC的ScorpionProject,欧盟的DESIRE等,利用传统的文献分类法,如DDC、UDC、LCC,对网络信息资源进行分类组织和主题识别。国内的自动分类研究工作始于80年代初,经过20年的发展,已经有一些比较有代表性的辅助归类和自动归类系统,如莫少强的计算机辅助图书馆分类系统、苏新宇等人的汉语档案自动分类系统、刘开瑛的金融档案自动分类系统、金巍的肿瘤学专业文献自动分类系统、王永成的计算机专业文献自动归类系统等等。[1]这些研究和成果表明,近期自动分类的研究趋向是――以传统的文献分类体系为组织框架,构建一个分类知识库(或称分类器)来实现信息的自动归类。
长期应用于传统文献组织的文献分类法,经过多年的实践已经建立起与其他分类法、词表之间的兼容互换对应关系,发展成为一种可以有效组织信息的工具,即知识组织系统(KOS)。利用这一知识组织系统来实现信息的自动标引和自动分类,已经成为目前信息加工自动化的一个研究热点。
根据知识库(或分类器)的构建以及分类算法的不同,可以把这种类型的文本信息自动归类分为两种模式:基于训练语料的和基于人工标引经验的。
2 两种自动分类模式介绍
2.1 基于训练语料的自动分类模式
语料库原指语言资料库,是为字词典编撰提供例句或给语言学家研究语言提供第一手资料。[2]后引入到计算机信息处理领域。意为计算机可以处理的大规模真实文本的有序集合。在自动分类中,语料库是按照一定的类别组织起来的文本集合,是构建分类器的基础。
基于训练语料的自动分类过程通常由训练和分类两个阶段组成。在训练阶段,采用统计的方法从大规模训练文本,即由人工分类的各类别文献组成的集合中学习各类的特征,建立规范化的类别特征向量,以得到分类器。在分类阶段,将待分类文献的特征词串与分类器各个类目特征进行计算比较,得出分类概率最大的类。图1是一个基于训练语料的文本分类步骤图:
图1 基于训练语料的文本分类步骤图
目前,采用机器学习从训练语料中发现类目特征进行文本分类的方法有很多种,如决策树法、支持向量机、贝叶斯分类、K-近邻分类,神经网络算法等。这种基于训练语料的自动分类模式广泛为计算机界所采用,它比较适合面向主题或行业的粗分类,是自动分类发展的一个主要趋势。
2.2 基于标引经验的自动分类模式
书目数据库是由专业人员对图书、期刊论文等进行著录、标引的数字信息资源集合,包含大量的主题标引、分类标引双重人工标引记录,是一个丰富的标引经验库。基于标引经验的自动分类模式依据情报语言学中分类语言、主题语言、自然语言三者之间兼容互换的原理,采用统计的方法对这些人工标引记录进行挖掘,建立分类号―关键词(串)对应库,即分类知识库,再将标引词(串)与分类知识库中的词串进行相似度计算,给出与相似度最大的词串的对应的类号,完成赋号标引。图2是一个基于标引经验的自动分类步骤图:
图2 基于标引经验的自动分类步骤图
图3 基于概念空间的自动标引与自动分类系统设计与处理流程
基于标引经验的自动分类模式主要由情报界和图书馆界在研究,早期利用一些大型的分类主题一体化词表构建分类号―主题词(串)对应表来作分类知识库,但这种分类知识库规模小,词汇陈旧,于是改向从以传统的文献分类法进行分类标引的人工标引记录中进行挖掘,来发现分类号―关键词(串)的对应表。这种模式算法简单、运算量少、分类深度大,是自动分类研究的一个新尝试。
我实验室近些年一直在从事这两种中文信息自动分类系统的研究,并完成了两个实验系统――基于关联概念空间的自动标引与自动分类系统和基于《中图法》知识库的自动标引和自动分类系统,下文将分别介绍这两种系统的设计、知识库的构建、分类算法、性能等。
3 两个自动分类系统概述
3.1 基于关联概念空间的自动标引与自动分类系统
概念空间是由情报学专家G.Salton在其经典著作《现代信息检索》中首先提出的,是指某一领域中概念的集合及这些概念之间的语义关联度。[4]该系统关联空间的构建,主要是通过对大规模语料库的统计,根据关键词―主题词词对的同现,发现等同、相关关系,从而构建一个关键词―主题词关联概念空间,一方面用于抽词标引的主题规范,实现自动赋词标引,另一方面通过关键词向主题词的转换,实现分类器的降维,以降低分类的计算量。其系统设计如图3。由图3可知,该系统分为三部分:概念空间构建、自动赋词标引和自动分类。其概念空间和分类器的构建均基于训练语料,训练语料来源于重庆维普的《中文科技期刊数据库》(以下简称“维普库”)。训练语料本应为维普库中的全文数据,鉴于目前该系统为试验系统,科技文献全文一般在3000字左右,还有大量的图、表,这些将影响系统运行速度,同时产生干扰,而科技文献的题名和文摘一般足以代表该文献的内容特征,因此只考虑选用题名和文摘作为训练文本。
(1) 关键词―主题词概念空间的自动构建。从维普库中套录题录,主要包含题名、文摘、分类号,分别用关键词表、主题词表从中抽取关键词、主题词,将这些同时出现在一条题录中的关键词、主题词一一自动对应,构成关键词―主题词词对,分别统计关键词、主题词、关键词―主题词词对的频次,采用极大似然估计(LogL)来计算关键词―主题词的关联度,取关联值在前10位的词对应关系作为最后的关联表记录,从而构建完成一个关键词―主题词概念空间。
(2) 自动赋词标引。将待处理文本经过预处理后,用停用词表、关键词表、主题词表分别对其进行分词,结合位置加权,得到关键词集合和主题词集合,再利用关键词―主题词概念空间,将关键词集合向主题词集合转换,进行阈值筛选,得到赋词标引结果。
(3) 自动分类包括分类器的构建和分类算法。该系统采用《中图法》F8类(到4级,共90个类目)作为归类体系,从维普库中套录近三年来题名、文摘齐全的财政金融类数据17万条作为训练语料,采用朴素贝叶斯定理来学习、分类。
学习过程――将17万训练数据按照已经设定好的90个类目组织,计算出两个概率:文本分到第i个类目的概率p(Classi)和每一个特征词(aj)与某一特定类目(Classi)的关联值p(aj|Classi)。
p(Classi)=t/n(1)
其中,t为训练集中分到第i类的文本数;n为训练集总文本数。
p(aj|Classi)=(Freq(aj)+1)/
(TotalWords (Classi)+AllWords)(2)
其中,Freq(aj)表示特征词aj在类Classi中出现的次数;TotalWords(Classi)表示类Classi中特征词的总量;AllWords则表示训练集中所有词出现的次数。这是一个基于m-估计的计算概率的方法,m为类目总数。
用停用词表、主题词表和关键词表对训练语料进行分词,得到一个主题词和关键词的集合来表示类目特征。
Classi=∑pKeywordp×KeyWeightp+
∑qDescriptorq×DesWeightq
(3)
其中,p,q分别表示该类目特征中关键词、主题词的数目,KeyWeightp,DesWeightq分别表示Keywordp,Descriptorq在该类目中的权重。
在概念空间中,一个关键词与多个主题词之间有关联关系,根据信息可组配原理,该关键词所表示的信息可以用与其相关联的主题词表示出来,则
Keyword=∑kDescriptork×Associationk/∑kAssociationk(4)
其中,k表示概念空间中与关键词Keyword相关联的主题词个数;Associationk表示每一个主题词De-scriptork与Keyword的关联度。
把公式4代入到公式3中,得到
Class(i)=∑p(∑kDescriptorpk×Associationpk/∑kAssociationpk)×KeyWeightp+∑qDescriptorq×DesWeightq(5)
公式5经过转换归并后可得到:
Classi=∑rDescriptorr×DesWeightr(6)
由此可见,通过概念空间的引入,可以把类目完全用主题词进行表示,主题词的数量远远少于关键词的数量,从而大大降低了类目的维数。
分类过程――实际上就是求待分类文本Doc分到第i个类目的可能性最大的过程。根据贝叶斯公式可得出这种可能性的表示公式:
p(Classi|Doc)=p(Doc|Classi)p(Classi)/p(Doc)(7)
由于文本可用特征词来表示,并且基于贝叶斯公理进行分类的一个基本假设,即各特征词之间是相互独立的,因此,可以将公式7变形为:
p(Classi|Doc)=p(Doc|Classi)p(Classi)/p(Doc)
=∏xj=1p(aj|Classi)p(Classi)/p(Doc)(8)
由于p(Doc)确定,只需求出∏xj=1p(aj|Classi)p(Classi)/p(Doc)是否最大即可,而该式中所需要的概率值在学习过程中均已求出,所以不难求出最大值以实现文本的自动归类。
采用(2)的方法对待分类的文本进行自动赋词标引,将自动标引的结果(主题词即其在文本中权值的集合)通过分类器,算出分类概率最大的类目,即可实现自动分类的过程。
经测试,该系统自动赋词标引的正确率达到80%多,与人工赋词标引结果的一致性达到75%;自动分类深度达到四级,平均正确率接近80%。[5]
3.2 基于《中图法》知识库的自动标引和自动分类系统
基于《中图法》知识库是指以《中图法》分类体系为框架,搜集中文书目数据库中存在的包含分类标引和主题标引的双重人工标引数据及其他相关数据,如《中图法》索引、《中图分类主题词表》等,采用统计学和数据挖掘中关联规则发现的算法,构建分类号―关键词(串)概念上的对应关系,以形成一个分类知识库。通过计算标引词串与知识库中词串的语义相似度,找出最对应的分类结果。图4表示《中图法》知识库的组成。[6]图4《中图法》知识库组成
由图4可知,《中图法》知识库以《中图法》为主干体系,包含若干个词表和词典,其中抽词词典、停用词表、同义词表、义类词典是主题标引知识库,分类号―关键词串对应表为主分类知识库,地名表、时代表、文献类型表等为辅助分类知识库。其中分类知识库是《中图法》知识库的主体,从中文书目数据库中抽取双重人工标引记录,结合《中图法》索引、《中分表》数据构建一个分类号―关键词对应的原始库,统计类频、词串频次、类号―词串同现频次,通过支持度、置信度两个兴趣度参数删除错误记录,采用dice测度计算类号与词串的关联度,从而确定类号与词串的最佳匹配,形成分类知识库。图5为分类知识库的样例。由图5可知,在分类知识库中一个类号可以对应多个词串,但一个词串只能对应一个最佳类号。该系统中F经济类知识库,类目总数为5208个(包括固定类目和常用组合类目),对应的词串总数为81765条,平均一个类号对应15.7个关键词词串。[7]
图5 《中图法》分类知识库样例
图6 基于《中图法》知识库的自动标引和自动分类系统处理流程
图6反映了基于《中图法》知识库的自动标引和自动分类系统的处理流程。首先对待处理文档进行预处理,用停用词表和抽词词典进行分词,根据绝对频次、词长、位置进行加权,取前6个词作为标引词,然后借助于同义词表和义类词典进行主题规范,得出正式标引词,完成自动标引;将抽词标引结果与分类知识库中的词串进行语义相似度计算,见公式9,通过计算给出相似度最大的词串对应的类号,实现赋号分类标引。
其中,词串相似度计算公式为:
Sim(S1,S2)=α×Match(S1,S2)Num(S1)+Match(S1,S2)Num(S2)/2+β×γ×(∑Match(S1,i)∑m1i+∑Match(S2,j)∑n1j/2(9)
S1,S2分别表示文本标引词串和知识库中的词串;
α:两词串中含有相同元素的个数对语义相似度的影响权重,在此系统中设为0.6;
β:相同元素在词串中的位置关系影响权重,在此系统中设为0.4;
γ:位置系数,γ=Min(Num(S1)/Num(S2),Num(S2)/Num(S1));
Match(S1,S2):表示两个词串中含有相同元素的个数;
Num(S1)、Num(S2):分别表示词串S1与S2所含元素总数;
∑Match(S1,i)∑m1i、∑Match(S2,j)∑n1j分别表示匹配元素在S1、S2中所处位置的权重之和。
我实验室从2000年开始研究该试验系统,已实现对网页、期刊论文的标引。经测试,该系统自动标引与人工标引相符率达到73.87%,平均标引深度为4.93;自动分类平均正确率达到75%。[8]
4 讨论
通过上文对两个自动分类系统的简单介绍,结合基于训练语料和基于标引经验的两种自动分类模式,从原理、知识库构建、分类算法和面临的问题等方面来进行一些讨论。
4.1 原理
从自动分类原理上看,都是基于分类语言、主题语言、自然语言间的兼容互换原理。通过语词向量或关键词串来表示类目(类号)的含义,通过待标文本特征词串与类目特征语词的匹配来完成自动分类。
基于概念空间的自动标引与自动分类系统是基于训练语料的,它所依赖的是未经加工处理的原始文本,更侧重于应用数学统计方法来发现规律,人为因素影响甚少,更符合计算机自动化处理的要求;基于《中图法》知识库的自动标引和自动分类系统是基于人工标引经验的,在已有的智力劳动成果基础上总结发现规律,有利于简化工作,人为参与是目前信息自动化处理过程中仍然不可或缺的一部分。
4.2 知识库构建
这两个系统都是以通用的分类法为基础,都有一个为完成自动分类而存在的知识库。不论是基于机器学习的训练语料生成的数据,还是基于人工标引经验统计生成的分类号―关键词串对应表,都是一种分类知识库。
基于训练语料的分类器构建采用统计学习的方法,计算训练样本的特征,用特征词的集合及其落在该类的概率来表示一个类目,一个类目对应一个特征集合;基于标引经验的分类知识库的构建采用统计的方法在人工标引实例的基础上建立词串与类号的对应关系,一个类号可以对应多个词串;统计学是两者共用的基础方法。
如果把后者中的标引经验库也看成是一种熟语料的话,相对于前者未经加工标注的生语料而言,可以这样说,基于训练语料的是一种“理性主义”,而基于标引经验的是一种“经验主义”,两者都是一种基于数据的方法,而非基于规则的,这也是信息自动分类的一种主流形式。
4.3 分类算法
从模式识别角度看来,两者都是最邻近匹配算法,但具体实现方式不同。基于训练语料的自动分类系统一般采用向量空间模型、贝叶斯分类、K-近邻算法等统计学方法,如基于概念空间的自动标引与自动分类系统采用朴素贝叶斯分类的方法;基于标引经验的自动分类系统则倾向于采用类似模式匹配的方法,如基于《中图法》知识库的自动标引和自动分类系统采用词串的字面与语义相似度算法,是一种基于实例的匹配。
4.4 共同面临的问题:未登录词识别与知识库的及时更新
两个系统目前还缺乏未登录词的识别功能,都还依赖于已有的分词词典,不能自动识别和添加新词。新词的不能自动识别和及时添加,仅仅依靠人工的定期维护,往往会造成分词词典、分类知识库等数据库的更新滞后,从而造成新主题标引和分类的失败。因此,新词的识别和知识库的自动更新是这两者共同面临的问题,需要及时增补更新训练语料和人工标引记录,并借助计算语言学、语料库语言学等语言学相关知识来解决这一问题。
5 结语
总的说来,在知识库构建上,基于训练语料的自动分类模式完全依靠机器学习从训练集中发现类目的特征集合,遵循了文献保障原则,并且数学论证充分,易于用机器实现知识库的自动维护,比较适合于面向主题和行业的粗分类,但过分强调了机器学习的效能,忽略了人工智力劳动成果的利用;基于标引经验的自动分类模式利用简单的统计学方法挖掘人工标引经验构建知识库,遵循了用户保障原则,适用于面向体系分类法的细分类,但过分依赖经验,缺乏有说服力的数学证明。在分类算法上,前者运算量大,算法复杂;后者运算少,算法简单。知识库的完备程度和合理性在很大程度上影响了自动分类的结果。
那么,是结合两者的优势,借助于人的智力劳动构建高质量的语料库或把机器学习、人工智能等计算机技术应用在人工标引经验的挖掘上,改善和利用已有的知识组织系统(分类法、主题词表等),走一条结合之路;抑或是各自向着自己所擅长的方向发展,自成一体,向纵深发展?这将值得我们在自动分类领域作进一步探索。
参考文献
1 成 颖,史九林.自动分类研究现状与展望.情报学报,1999,18(1):20-26
2 张 普.关于大规模真实文本语料库的几点理论思考.语言文字应用,1999(1):34-43
3 夏祖奇.基于关联概念空间的自动标引与自动分类系统研究.侯汉清指导.南京农业大学硕士毕业论文,2004,6
4 邓珞华.概念空间――定义、意义和局限.情报学报,2003,22(4):393-397
5 同3
6 侯汉清,薛春香.Construction of Knowledge Base for Automatic Indexing andClassification Based on Chinese Library Classification. Fifth AgricultureOntology Service Workshop. Beijing(2004)
7 章成志.基于文本层次模型的Web概念挖掘研究――基于概念语义网络的自动标引和自动分类系统研究.侯汉清指导.南京农业大学硕士毕业论文,2002,6
8 章成志,侯汉清,丁 璇.中文Web概念挖掘系统设计与测评.上海交通大学学报,2003,37(增刊):207-211
薛春香 女 南京农业大学信息管理系博士生。
夏祖奇 男 南京农业大学信息管理系硕士生。
侯汉清 男 南京农业大学信息管理系教授、博士生导师。