分类主题词表的计算机自动编制——兼论用于自动分类的知识库的改进 顾 颖 何 琳
发布时间:2018-09-27  浏览次数:24

分类主题词表的计算机自动编制

——兼论用于自动分类的知识库的改进

 

  1    2

1南京医科大学图书馆  210029

2南京农业大学信息科技学院  210095

 

    中文文献数据库中存在大量的分类号与关键词(或主题词)对应的人工标引记录。通过对这些标引记录信息进行聚合处理,可以实现计算机自动编制分类主题词表。作者比较了两种分类主题词表的编制模式,讨论了机编分类主题词表的优势,针对机编分类主题词表已有的成果——知识库的不足之处提出改进方案。改进方案在小规模测试集中取得了良好的效果。文章最后还分析了将机编分类主题词表技术应用于新一代《中国分类主题词表》升级改造的良好前景。

关键词  中国分类主题词表  中国图书馆分类法  分类主题词表  计算机辅助编制  知识库  自动分类

 

AbstractThere are many indexing records which contains the mapping of classification numbers and terms (keywords or subject terms). The knowledge base of classified thesaurus can be automatically created with the computer-processed indexing records. The author compared the compiling patterns of the two classifications thesaurus, and discussed the advantages and disadvantages of the current knowledge base, then proposed some methods to improve the system performance of the knowledge base. At last ,the author analysized that applying automatic establishment technology would be a good method to upgrading the Chinese Classified Thesaurus.

KeywordsChinese Classified ThesaurusChinese Library ClassificationClassified ThesaurusCompute-aid Thesaurus ConstructionKnowledge BaseAutomatic Classification

 

20世纪70年代出现的新型的情报检索语言——分类主题词表作为一种传统的知识组织系统,在文献信息的手工标引时代做出了卓越的贡献。它使得分类标引和主题标引能够同时进行,降低了文献标引的难度和成本,提高了文献标引的质量和效率,曾被图书情报机构广泛应用于信息资源的组织。然而,随着计算机和网络技术的发展,这种分类主题词表的不足之处日益明显,无论是编制和修订的方式,还是词汇规范控制与语义标注的模式,都已再适应于日新月异的网络信息环境。上世纪90年代以来分类主题词表的计算机自动编制,变革了传统分类主题词表的存在形式,利用计算机与情报语言学技术成功实现了信息自动分类、标引和概念检索,使分类主题词表这种传统的知识组织工具在网络环境下焕发出新的活力。

本文讨论了机编分类主题词表“知识库”(南京农业大学信息管理系开发)相对于传统分类主题词表《中国分类主题词表》(简称《中分表》)的优势所在,并针对知识库的不足之处提出改进方案,改进方案在小规模测试集中取得了良好的效果。

1  两种分类主题词表编制模式——知识库与《中分表》的比较

分类主题一体化词表有两种编制模式,一种是以《中分表》为典型代表的手工编制模式。另一种是用计算机自动编制一体化词表的模式,南京农业大学信息管理系在研究自动分类过程中开发了一种分类知识库,实际上就是一种分类号与主题词(或关键词)的双向对照数据库。

《中分表》编制于1986-1994年,它最初采用手工方法编制,即由编表人员冥思苦想、分析揣测《中图法》每个类目的含义,然后用《汉语主题词表》(以下简称《汉表》)中的主题词对应标引;在手工对应标引完成以后,为了保证全部主题词都实现与分类号的对应,还必须将《汉表》各大小范畴中未曾对应标引过的主题词补入有关类目[1],即将《汉表》中的全部主题词以等值对应和近似对应(少数以靠词对应)标引的方式置于《中图法》的相应类目下,最终形成分类号-主题词(串)对应表和主题词-分类号对应表。2005年出版的《中分表》第二版(即电子版),采用人工修订加计算机辅助技术,但其知识组织形式仍不免带有印刷时代的烙印。

知识库的编制模式则类似于网络信息的分众分类,接近于一种社会化标引方式,是通过聚合众多用户的标引记录信息而实现的。国内大多数图书馆、情报机构和信息中心所拥有的文献数据库中存在着大量的人工标引记录,这些记录中包含分类标引和主题标引(主题词串或关键词串)双重数据[2];依据分类检索语言、主题检索语言和自然语言三者之间的兼容互换原理,利用计算机自然语言处理技术对这些标引数据进行有效处理,就可以挖掘出分类号、关键词和主题词三者之间隐含的概念关系,构建出一种用于自动分类的对照数据库(亦称为知识库),其中包括分类号与主题词(或主题词词串)、分类号与关键词(或关键词词串)的双向对应数据[3]。知识库中分类号与主题词、关键词(词串)对照数据举例如下:

F832.1  金融 宏观调控 改革 中国

G250.7  公共图书馆 信息服务 网络化

G250.7  图书馆工作 信息资源 互联网络 资源管理

S567.1  形态习性 栽培技术 枸杞

R532.3  磁共振诊断 肝包虫囊肿 肝包虫病

与《中分表》相比,知识库具有以下优点:

1)《中分表》揭示的是分类号与主题词串的对应关系,属于受控语言,自然语言入口较少,即便第二版在修订时新增了很多入口词,仍与实际要求存在差距,用户使用不便。知识库揭示的是分类号与主题词或词串、分类号与关键词或词串、主题词与关键词之间的对应关系,以关键词和关键词词串为主,词汇更新快,便于用户检索。

2)《中分表》规模偏小,第二版对应款目总数20.6万[4],平均一个类目对应近4个词或词串,类目对应标引深度低,无法满足自动分类标引的需要。知识库中分类号与关键词词串对应表的规模远远大于《中分表》,对应款目总数,压缩前对照库达200多万,压缩后对照库仍有百万余,平均一个类目对应近40个词串或词,最多的能对应几百个词(串)。由于类目对应标引深度高,对照数据库规模大,便于自动分类时的相符性比较和相似度计算。

3)《中分表》对应标引依靠编表人员的个人经验或人为联想,缺乏文献保障,造成相当一部分对应款目冗余空设。知识库自动生成的对应标引款目直接来源于文献数据库,每一条记录都是一个标引实例,故而具有良好的文献保障,能够有效消除冗余。

4)《中分表》主要由人工编制和修订,旷日持久,第一版从研制到出版经历了八年时间,第二版从修订到出版也经历了6年时间,更新周期长,修订成本高;大量新词、新主题、新类目不能及时收录,词汇更新严重滞后。知识库采用计算机技术自动编制,几个月内即可完成编制或修订,可扩充性强,更新快捷,能够及时反映各时期出现的新主题、新概念。

目前,知识库系统已经比较成功地应用于网页和期刊论文的自动分类。侯汉清[5]、仲云云[6]、刘竟[7]等人对系统进行过多次测试,分类标引(深层次多级标引)与人工标引相符度达到70%多。

2  知识库存在的问题

当然,知识库在编制过程中尚存在一些问题,需要进一步改进。

(1)分类号与关键词串存在错误对应

通过聚合用户标引记录而产生的原始的分类号——词(串)对照数据库中,分类号与关键词串之间存在着一对多、多对一、多对多的关系。编制程序通过算法处理,消除多对一与多对多关系,为每一词串确定一个唯一的分类号。其中,分类号与词串的共现频次是筛选过滤数据的一项重要指标,共现频次越高,表示越多的标引员认可该分类号和词串之间的对应关系。但一些分类号与词串的错误对应由于出现次数较多,成为漏网之鱼,这就造成知识库中分类号与主题词串的错误对应,影响自动分类标引结果。

(2)词串中存在冗余词

人工标引记录中有相当一部分属于自由标引,词串中的关键词是标引员根据自身的理解自主选择和确定的,存在一定的主观性。知识库系统在构建过程中,已经除了一些半停用词和通用词如“问题、研究、发展、讨论、作用”等,但仍有部分关键词串所含词数过多,以医学类为例,词串中所含关键词数最多的达到10个。部分标引词属于检索意义不大的通用词;部分标引词与词串中的其他标引词之间存在语义重复现象。这些冗余词的存在会降低匹配相似度,干扰匹配结果。

(3)语义控制有待加强

同义词(准同义词)自动识别是知识库构建的关键技术,主题标引从关键词转向正式主题词,自动分类中词串相似度匹配以及概念检索都离不开同义词的识别。然而,知识库中以《同义词词林》为基础构建的义类词典只能胜任普通的汉语同义词识别,对于专业领域同义词的识别则显得有些力不从心,在一定程度上影响了匹配结果。

(4)词串的词序未理顺

知识库系统根据关键词(串)所含词位置的不同,给其设置不同的权值,默认词串中第一个词与文献主题相关性最高,赋予的权值也最高,其后的关键词权值按词序递减。关键词的权重直接影响到标引词串与知识库词串的匹配相似度。原始标引记录中往往存在词序未理顺的现象,一些与类目概念相关性较高的关键词出现在词串后部,影响了词串的整体权重,最终导致匹配错误。

(5)词串对应的类号过细

知识库中部分人工标引记录存在分类标引深度过深的问题,加上仿分和复分,有的分类号长达十余位。从网络环境下用户的检索习惯来看,使用主题检索者居多,类号的作用仅限于扩检和浏览,故而类目划分过细已失去必要性。同时,仿分、复分的多级应用,还会造成分类标引的混乱;由于计算机自动分类对文献分类标引的标准化和规范化要求较高,类目划分过细、分类标引专指度过高会在一定程度上降低知识库系统的分准率

上述问题存在的主要原因是目前用于自动分类的知识库系统比较粗糙,没有经过进一步加工,为使其成为能够广泛应用于中文文献信息标引的工具,必须对其进行进一步处理和人工审定。因此,我们选择以医学类(R72 儿科)为试点,针对知识库存在的上述问题,对系统进行调整与改进。

3  知识库的改进方案

(1) 引入基于规则的分类

刘金红等认为,基于规则补充的分类方法对类别有较强的判断能力,能够很好的捕获规则与类目之间的关联模式,有效提升系统性能[8]。故而尝试在基于知识库人工标引经验的分类方法之外建立“强”分类规则,通过对现有知识库以及《中分表》的分析,针对常见的以及可能出现的分类号-词串对应错误,制订“强”分类规则,即词串中一旦出现某(几)名词短语,则默认该词串分入某一固定类目。例如:词串中一旦出现“儿童 结核”字样,无论原有标引记录中分类号是什么,在建表过程中一律利用“强”规则将其分类号改为“R529.9”。则词串“R725.2 原发型肺结核 X线诊断 儿童”被处理为“R529.9 原发型肺结核 X线诊断 儿童”。

(2)建立学科停用词表

停用词是指出现频率太高,没有太大检索意义的词。停用词处理是知识库自动切词分词过程中的一个重要步骤。然而,现有的通用停用词表不能有效地针对各学科进行停用词过滤。由于知识库系统规模较大,考虑标引与分类结果的准确性,知识库对文献信息采取按类别处理的原则,即每次读入一个大类的知识库对文献进行自动标引与自动分类。在这样的背景下,采用基于统计的自动学习方法从医学语料中统计出高频停用词,自动构建学科停用词表并辅以人工审核,能够有效过滤词串中一些检索意义不大的学科通用词如“疾病、临床观察、救治体会、危险因素、生理现象”等。

(3)构建学科同义词表

由于现有知识库义类词典对学科同义词的识别有所欠缺,应通过构建学科同义词表加强知识库对学科同义词的语义控制。《医药学名词与主题词(MeSH)对应表》[9](以下简称《对应表》)中包含了大量的医学学科同义词,以其为基础构建医学学科同义词表,可以有效识别各种不规范的、不同语种的或英文缩写形式的学科名词,如“脚气病(等同于维生素B1缺乏病)”、 HIE(等同于缺氧缺血性脑病)”等;同时结合字面相似度计算,利用汉语同义词具有字面相似特征,通过计算两个不同语词包含相同词素的程度来确定二者是否构成同义关系,捕获大量具有字面相似特征的、而《对应表》中却未曾出现的同义词 (词组),如“冠状动脉病变”和“冠脉病变”等,对同义词表实施增补。采用上述方式构建的医学学科同义词表,应能够识别大部分医学学科同义词,有效提高系统性能。

(4) 引入类目归属度指标

在知识库中,一个分类号对应的类目概念由若干个关键词组配表达,其中每个关键词在表达类目概念时所处的地位和作用是不同的。何琳[10]等人将关键词表达类目概念的能力定义为关键词对该类目概念的归属度,并通过文本统计方法(如Dice测度)对其进行计算,归属度越高,表示关键词表达该类目概念的能力越强,亦即与该类目概念的相关性越高。在编制知识库过程中引入归属度指标,可以定量测度某个关键词与某个分类号的相关程度,并按其数值大小调整词串中的关键词词序;必要时还可通过设定阈值的方式,过滤词串中与分类号相关度较低的关键词,有效减少词串中的冗余词数。如前所述,词串中的关键词词序和冗余词都会影响到知识库系统的分类结果;所以引入归属度指标是提升知识库系统性能的有效手段。

(5)分类号级别控制

分类标引深度过高,会影响知识库的分类结果的准确率;分类标引深度过低,又会降低聚类和族性检索的优势。综合两方面因素,可考虑参照图书馆实际文献环境,统计近年来图书MARC中分类号的利用情况,在此基础上确定每个基本大类的最末类级层次,进而对知识库中的分类号级别进行算法控制,将划分过细和过长的类号对应到指定的上位类。如“R725.933.1 原发性免疫缺陷病 免疫缺陷综合征 发病情况 诊断”,该词串分入R725.9小儿全身性疾病后又仿R59进行了复分,经以上方法控制后,处理为“R725.9 原发性免疫缺陷病 免疫缺陷综合征 发病情况 诊断”。该方法可以在一定程度上实现知识库中分类号的级别控制;同时,由于其基于实际文献环境,也避免了人工确定知识库类目级别的主观性。

4  改进效果测评

根据上文所提出的改进方案,笔者在原有R72儿科知识库的基础上构建了一个新的小型知识库,对本文所提出的知识库改进方案的有效性进行实验认证。

考虑到知识库的工作流程是先抽取关键词,再经主题标引形成词串,最后将词串与分类号-关键词串对应表进行相似性匹配,得出分类号,分类是系统工作的最后一个流程,其结果能够比较完全的体现系统的性能;同时相较于标引结果,分类结果有公认的评判标准,对其进行定量测评更方便也更具有说服力。所以,本实验通过对改进前后知识库系统自动分类结果的对比来评价改进方案的有效性。

本实验从重庆维普期刊数据库中随机下载了200条儿科类期刊论文标引数据,并对每条数据进行人工分类标引,确定一个分类号。再使用调整前的知识库(以下称知识库1)和调整后的知识库(以下称知识库2)分别对此200条标引数据实施自动分类标引。使用分得率、分准率以及F1测试值三个指标,参照人工分类结果,对两系统的自动分类结果进行测评。

1)分得率

分得率是有分类结果的记录数占全部参与测试的记录总数的比例,其计算公式如下:

分得率=实际分出的记录数/参与测试的记录总数

利用此公式对两个系统分类结果的分得率进行计算比较,见表1

1  分类结果分得率的比较

系统名称

分出记录总数

测试记录总数

分得率

知识库1

162

200

81%

知识库2

174

200

87%

 

2分准率

分准率是与人工分类结果相吻合的记录占实际分出记录数的比率。相较于自动分类标引,人工标引由于加入了人的智力判断,可信度较高;因此自动分类结果与人工分类结果越接近,认为自动分类的准确程度越高。

分准率计算公式如下:

分准率=分类正确的记录数/实际分出的记录数

利用此公式,参照人工标引结果,对两个系统分类结果的正确性进行计算比较,见表2。在对比时,我们将分类结果的相符分为三种情况:(1)正确,分类号完全相符;(2)基本正确:分类号前四级(包括四级)相同但不完全相符;(3)错误:其他相符情况。

2  分类结果正确率的比较

系统

名称

分出

记录总数

完全相符

记录数

基本相符

记录数

相符

记录总数

完全

准确率

基本

准确率

知识库1

162

84

28

112

51.8%

69.1%

知识库2

174

98

35

133

56.3%

76.4%

 

3F1测试值

分得率和分准率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废。因此,存在一种新的评估指标-F1测试值,其计算公式如下:

F1测试值=分得率*分准率*2/(分得率+分准率

一般认为,当F1的值达到75%以上时,分类结果比较理想。

利用此公式对两个系统分类结果的正确性进行计算比较,见表3

3  分类结果F1测试值的比较

系统名称

基本准确率

分得率

F1测试值

知识库1

69.1%

81%

74.58%

知识库2

76.4%

87%

81.36%

 

从上述三项指标的测试结果可以看出,知识库2的分得率比知识库1提高了6%分准率比知识库1提高了7.3%;同时,F1测试值也从74.58%提高到81.36%,实现了质的进步。实验结果表明,改进方案能够有效提升原有知识库的系统性能。今后可以进一步扩大实验范围,实现改进方案在其他学科的推广,提高知识库的整体标引质量。

5  以知识库为基础,编制新一代《中分表》

计算机自动编制分类主题词表在效率、成本、更新、应用等方面均优于手工方式编制的词表,但准确性及严谨性则有所缺乏。本文提出的改进方案在收集语料、构建分类号与主题词、关键词(词串)对照数据库的基础上,进一步采用了机器处理及人工审定的办法,能够有效提升机编分类主题词表的性能和应用价值。可以此为基础,编制适应于网络环境的新一代《中分表》。新一代《中分表》的词表总规模预计在5-6万个类目、约200万条对应款目。与前两版《中分表》相比,增补了主题词,大大扩充了关键词,对应词(串)的数量得到大幅增加。为方便使用,可按照用户需求出版多种版本,包括手工标引版(现有《中分表》的扩充版)、自动标引版、专业版等多种版本。升级改造后的新一代《中分表》拥有丰富的词汇和语义关系,是一种基于概念语义网络的知识组织系统,易于更新、扩充和发展,而且适应性广,在进一步的研究中,还可应用于领域本体构建以及知识组织系统的互操作。

新一代《中分表》将突破传统知识组织工具的局限性,以新的面貌和功能应对数字时代的挑战,为网络环境中知识组织和信息开发利用发挥更大的作用。

 

参考文献

1  侯汉清建立以《中国分类主题词表》为核心的检索语言兼容体系[J北京图书馆馆刊,1998(4): 35-90

2  侯汉清,薛春香用于中文信息自动分类的《中图法》知识库的构建[J中国图书馆学报,2005(5):82-86

3  何琳,刘竟,侯汉清基于《中图法》的多层自动分类影响因素分析[J中国图书馆学报,2009(11):49-55

4  侯汉清,李华《中国分类主题词表》(第二版)评介国家图书馆学刊[J.2006,15(2):15-20

5  侯汉清,薛鹏军.基于知识库的网页自动标引和自动分类系统的设计[J大学图书馆学报,2004(1):50-55

6  云云,侯汉清,薛鹏军网页自动标引方案的优选及标引性能的测评[J情报科学,2002,20(10):1108-1110

7  刘竟,朱书梅,侯汉清网络环境信息标引的测评与比较研究[J中国图书馆学报,2008(1):70-74

8  刘金红,陆余良,周新栋一种辅以强规则学习的双层文本分类模型[J计算机工程,2007,33(8):165-167

9  中国医学科学院医学信息研究所医药学名词与主题词(MeSH)对应表[M北京:《国外科技资料目录-医药卫生》编辑部,2001

10  何琳,侯汉清,白振田等基于标引经验和机器学习相结合的多层自动分类[J情报学报,2006,25(6):725-729

 

注释

①分众分类是网络信息用户自发地为某类信息定义一组标签(Tag)进行描述,并最终根据标签被使用的频次选用高频标签作为该信息类名的一种为网络信息分类的方法。

 

    女,1980年生,硕士,南京医科大学图书馆馆员,发表论文10余篇。

    女,1980年生,博士,南京农业大学信息科技学院副教授,发表专著一部,论文10余篇。