《中国图书馆分类法》类目更新途径之探讨 孔晨妍 侯汉清
发布时间:2018-09-25  浏览次数:13

《中国图书馆分类法》类目更新途径之探讨

孔晨妍    侯汉清

(南京农业大学信息科学技术学院210095

 

    随着科技迅速发展,网络信息急剧增长,加速分类法更新修订的步伐已经提上日程,成为迫切需要解决的问题。本文通过对《中图法》和《杜威十进分类法》在更新周期和方法上的比较,指出《中图法》存在更新周期长、来源贫乏的问题。针对这一问题,本文提出借鉴国外分类法的优点和长处,对《中图法》的更新另辟佳径,并着重探讨了五种切实可行的来源及方法:①利用分类知识库;②利用最新的文献和网页;③利用文献数据库中的标引关键词;④利用国外分类法及词表的增补公报;⑤利用概念空间。

关键词《中国图书馆分类法》分类法更新概念空间同现分析词频统计

 

《中国图书馆分类法》(简称《中图法》)1975年后迅速在全国推广使用,是我国应用最广泛的分类法。从第一版的问世,到第四版的推出,每一版的修订都为《中图法》注入了新的活力和生机,提高了科学性和实用性。然而,与国外分类法稍作比较,差距是显而易见的。在更新周期上,《中图法》自第一版至第四版,历时24年,进行了3次换版修订,平均周期长达8年。而《杜威十进分类法》(简称DDC)自1876年问世,始终遵守“与知识发展保持同步原则”,120年来,每隔六、七年进行一次修订换版,每季发布一个网络版,每月定期发布增补公报、更新信息。

在更新方法上,《中图法》主要在全国召开不同规模的研讨会,通过征求用户的修订意见和建议进行修订。而DDC除了传统方法外,还加强同美国国会主题词表(简称LCSH)的联系,收录DDC相关索引中没有的主题词;利用“WordSmith Project”从原始文本中自动识别和抽取新词,利用“Scorpion Project”实现自动分类和自动主题识别,进行DDC的类目映射。

其中,WordSmith项目是DDC发现新词的重要来源。OCLC研究小组1996年启动了该项目[1],主要研究从非结构化的文档中识别新术语。它能够识别词组进行标引,以解决单个词做标引词时表达不明确,不能很好地体现新概念的问题。当事物有多种表达方式时,WordSmith采用统计的方法和传统使用的方式识别惯用词组进行标引。在WordSmith2]工具包中包含了标记工具、标引对话标记工具、名词词组解析器、惯用词组识别工具和词组标准化工具等,用户可以根据自己的需求,独立地使用每个功能单元,抽取长词或者是短词作为索引词。这些应用研究都对《中图法》的更新很有参考价值。

随着《中图法》类目体系的不断扩充,应用范围越来越广,尤其是近年来电子版的推出,对类目更新质量和速度的要求将会越来越高。针对这一问题,本文提出采用计算语言学的方法,借鉴国外分类法的长处,着重探讨以下五种增补更新《中图法》的主要途径和方法。

1来自《中国分类主题词表》和分类知识库

DDC增补类目的一个来源就是参照《美国国会图书馆主题词表》(LCSH)。在第21版以后,DDC可以不改变任何类目或结构,直接与LCSH中的相关词进行映射。对于重要的索引词,DDC单独为之设置类号,或添加到相关的索引词中。借鉴这种方法,可以利用《中国分类主题词表》和分类知识库对《中图法》进行类似的增补。

1.1《中国分类主题词表》

《中国分类主题词表》(简称《中分表》)是在《中图法》编委会的主持下,在《中图法》第三版和《汉语主题词表》的基础上,编制而成的分类检索语言和主题检索语言兼容互换的工具。20059月,《中分表》在《中图法》第四版的基础上进行修订,出版了第二版和电子版。作为我国规模最大的分类-主题一体化标引工具,它的成长与更新都与《中图法》息息相关,所以利用《中分法》对《中图法》进行更新是个很好的途径。例如,要更新《中图法》的F840.4 保险业务类,参阅《中分表》中F840.4 保险业务”类,对应此类的主题词有:保险代理;保险单;保险费;保险费率;保险合同;保险金额;保险条款;附加险;基本险;理赔;赔付率;水渍险;一切险;预防损失等,这些词可以作为修订该类的重要来源。

1.2分类知识库

此外,分类知识库也是一个很好的来源。分类知识库是根据分类语言、主题语言、自然语言三者兼容互换的原理,以众多标引员的主题标引和分类标引的经验为基础,建立的一个《中图法》为基础的分类知识库――分类法与主题词表对照数据库[3]。据统计评测[4],与《中分表》相比,分类知识库不仅数量大,而且相关率高达98.25%,其中基本相同和基本相关记录占总记录的93.25%,不相关率仅为1.75%,表明分类知识库具有很高的质量保证。此外,分类知识库有很好的文献保障,扩充性强,更新方便及时。因此将分类知识库作为《中图法》类目更新的来源是非常有价值的。表1是从分类知识库抽取的“F840.4保险业务”类的记录片断,对所有关键词进行词频统计,得到表2

1F840.4 保险业务”类主题词

Clc

Word

Clc

Word

F840.4

WTO/入世/保险业务

F840.4

保险金额

F840.4

WTO/保险业务/信用“保险”

F840.4

保险条款

F840.4

WTO/入世/保险业务

F840.4

保险业务

F840.4

保险/代理

F840.4

推销/基本知识/保险业务

F840.4

保险/会计

F840.4

推销/基本知识/保险业务

F840.4

保险/机动车/赔付率

F840.4

理赔/保险业务

F840.4

保险/销售/基本知识

F840.4

入世/保险业务/信用“保险”

……

……

……

……

 

2 F840.4 保险业务”类关键词词频统计

Frequency

Word

11

保险、保险业务

4

WTO(入世)

3

信用“保险”、销售、推销、基本知识、计算方法

2

会计、理赔

1

赔付率、资金管理、保险单、保险费、保险公司、保险合同、保险金额、保险条款、市场营销学、数据库系统、附加险、水渍险、平安险、危险管理、一切险、预防损失、战争险

 

可将从《中分表》和分类知识库中发现的词进行归并,并通过人工判定筛选新词,增入《中图法》,筛选的新词应该有以下几个特征:表达新概念;词频相对较高;有检索意义;分类法中未出现。根据以上特征,可选取:保险金额、保险条款、保险合同、赔付理赔、保险销售、基本险、海上保险、平安险、水渍险、一切险、航空保险、附加险等词。

2来自最新的电子文档和网页

自然语言在发展的过程中不断有旧词淘汰,新词产生。网络的盛行使电子文档和网页成为人们重要的一类信息源,也使网络语言成为我们发现新词的一个重要途径。WordSmith就是从网页中识别新词词组补入DDC的。国内也对网络语言的新词发现进行了大量研究。目前人们研究的方法主要有两种[5]:一种是统计的方法:先进行网页的预处理,再利用文本语料库进行汉语切词,利用词性标注词典进行词性标注,记录每个词出现的总频次,文档频次和位置,统计词语共现的可信度,遵循“共现频次在均值之上的词汇组合是好的”原则,进行筛选。另一种是规则的方法,通过大量语料分析,发现首词和尾词合成新词的规则,将它们单独取出来研究,将总结出的特殊规则形成规则文件,对词进行层层过滤,来获得较高质量的结果,减少人工干预。

利用这些研究成果,可以为《中图法》发现新词,这里我们使用天津市海量科技发展有限公司开发的智能分词研究版。该软件有一个自带词典文件用于分词,当用户发现有新词切分不准确时,可以自定义词典,即自定义一个普通文本文件,添加新词、词组来提高分词准确度。我们可以直接输入需要切分的原文,也可以从存储设备中加载txt格式文件。我们下载了一定量的有关保险的网页,先将网页转化为txt文件,批量导入,利用该软件进行词性的标注,并利用语义指纹进行文章内容的消重。实践发现,该软件对词语的识别能力较强,能有效地识别出日期、数字、人名、机构名和惯用语,并且显示结果可按照关键词权重的高低排列,通过人工判定,发现以下词:投保,被保险人,责任险,综合险,车辆险,保单,保险法,保险费,商业保险,保险中介,保险产品,保险企业,社会保险,理赔,投保人,人寿保险,理财、保险法等等,可作为更新的来源。

3来自文献数据库标引的关键词

由于《中图法》更新缓慢,不能及时反映新事物、新概念,部分类目又早已过时,不利于新知识、新概念的标引和分类,《重庆库》、《清华库》采用自由标引,词汇更新及时,对新词反映有良好表现。利用《重庆库》、《清华库》的标引关键词为《中图法》增补类目可以增强《中图法》对新词的包容性,及时反映学科动态。

具体方法是:取文献库中某类目下的所有关键词,筛选出《中图法》类名及注释中未出现的词,统计总词频、类词频以及文本词频。其中,总词频是语词在语料库中出现的总次数(用P表示),类词频是语词在某一类语料中出现的次数(用P表示),文本词频是语词在某一类语料中出现的文本数(用P表示)[6]。表3是以F840.4 类为例的统计数据。根据词频统计数据,利用公式F(W)= (P * P ) / P,计算该词在某一类语料中的重要性程度W该公式表明,语词在某一类语料库中出现的次数越多,且含有该词的文本数越多,就越能代表该类的特征,而如果该词在语料库中出现的次数相对多,则价值不大。3F840.4”中选取的标引关键词统计数据片段

分类号

语词

总词频

类词频

文本词频

重要程度

F840.4

保险理赔

46

8

8

1.3913

F840.4

保险索赔

12

5

5

2.0833

F840.4

保险条款

2

1

1

0.5

F840.4

网络代理

172

14

14

1.1395

F840.4

网络会计

18

3

3

0.5

 

语词的重要性程度越高,就越能很好地反映文献的主题内容。由表3可见与F840.4类重要性程度最大的是“保险索赔”,然后依次为:“保险理赔”、“网络代理”、“保险条款”、“网络会计”。通过计算语词的重要性程度,可筛选高词频新词,更新《中图法》。

4来自概念空间

语词在文献中会有共同出现的情况,如果两词同现的频率超出了人们期望它们随机同现的频率,那么它们被认为是相关的[7],称为相关词。如:“公债”与“发行规模”;“外债”与“外债管理”互为相关词。两词同现的频率越高,它们的含义相关的可能性也就越大。概念空间方法就是根据语词之间的同现特征,进行语义扩充,构造概念语义网络,旨在建立一个知识丰富的、可理解的概念空间,可以代表所在信息空间中的概念及两两之间的关联[8]。

Carol Jean Godby Ray Reighart曾提出利用语词的共现特性,从自由文档中抽取惯用词组[9],来更新《杜威十进分类法》。虽然中西文在处理上存在很大的差异,但利用这种方法给《中图法》增补新词,提取惯用词组还是非常值得研究的。具体步骤如下:

1)数据收集与统计,根据类名收集一定数量特定领域的相关文献。由于重庆维普的文献更新快,资料新而且含有题名、分类号、摘要、关键词等信息,便于分析。所以从维普的《中文科技期刊数据库》中检索出某类中含有类名A的文献,将这些文献的所有关键词汇集,去重进行统计,得到三组数据:类名 A出现的文献数;关键词集合中词B出现的文献数;AB都出现的文献数。

2AB的相关值计算,利用公式R=(a and b) / (a or b)计算出两词的相关值[10]。其中“a and b”是AB同现的文献数;“a or b”是AB单独出现或同现的文献数。当相关值R超出某个预定的数值时,可认为两词相关。

根据以上步骤,我们发现与“F840保险理论”相关的词有:保险风险、保险功能、保险业发展、保险公司、保险业务、保险业、险种、保险法、养老保险;与“F840.3保险管理”相关的词有:管理信息系统、保险公司;与“F840.4保险业务”相关的词有“互联网”、“电子商务”、“保险公司”……。

利用上述几种方法,我们可以发现一些《中图法》中没有收录,又具有标引意义的词。通过人工判定的方法将它们入类。对F84做如下更新,黑体为更新部分:

F840保险理论

 保险法入D922.284

F840.1保险业发展

F840.2保险风险

F840.3保险组织和管理

F840.31保险组织

F840.311保险公司、保险企业

F840.312保险中介

F840.4保险业务

保险金额、保险条款、保险合同、保单等入此。

F840.41保险赔付

F840.42保险理赔

F840.43保险销售

F840.44保险网络代理

F840.6各种类型保险

基本险入此

F840.63交通运输保险

F840.631海上保险

基本险、平安险、水渍险、一切险入此。

F840.632航空保险

F840.7附加险

F840.8保险产品

F841世界保险业

F841.4保险业务

F840.4分。

F842中国保险业

F842.3保险组织

F840.31分。

F842.4保险业务

F840.4 分。

5来自国外分类法的增补公报

国外一些分类法在更新步伐上要快于《中图法》,如DDC,从1996年到2001年,按年度更新电子版,按季度更新网络版,自1997年,按月发布类目新增及修订消息,按周发布新增LSCH主题词列表[11],而且它们的更新信息可以免费获取,我们除了可以借鉴它们的更新方法,也可以直接利用它们的更新信息。

如,DDC有则关于通用应用软件类目修改的修订信息,在“文字处理软件”的类目注释里不仅包含文档编辑、文档处理,还增加了语法检查、拼写检查。对照《中图法》中“TP317.2 文字处理软件”下注释显然不够全面,可以依照更新为:“WPSWORD、中文之星;相关语法纠错、拼写纠错等软件的开发、研制入此。”此外,LSCH的新增主题词表,也可以为《中图法》更新新词提供来源。如LSCH新增主题词表中在类号591.7880723中新增词组“Animal populations-estimates”(种群估计)。对照《中图法》,与之相应的是Q958.1动物生态学类,可在Q958.15 动物群落下,增加一类目,类名为:种群估计。

以上五种来源及方法中,分类知识库、《中分表》和国外增补公报的应用主要是根据经验作人工干预,标引关键词和概念空间的使用主要是通过统计得出的。从电子文档、网页中提取主题概念是基于经验和统计的结合。将它们结合使用,可避免结果过于主观或客观,保证增补的质量和全面性。现在人们对于新词或未登录词的识别给予了更多的关注,大量的基于自然语言的处理研究也在进行之中,本文提出的是一些最常用的方法,笔者也迫切希望《中图法》能够早日推出网络版,跟上时代发展的步伐,并能够效仿DDC定期发布增补公报,缩短修订的周期,拓宽修订的方法,为《中图法》注入新的活力。

参考文献

1Godby.Jean. WordSmith research projectbridges gap between tokens andindexes.http://digitalarchive.oclc.org/da/ViewObject.jsp?fileid=0000001715:000000043711&reqid=18945

2Godby.Jean.Reighart, Ray. The WordSmithToolkit. http://digitalarchive.oclc.org/da/ViewObject.jsp?objid=0000003452

3侯汉清,薛鹏军.中文信息自动分类用知识库的设计与构建.情报学报,2003,22(6):681~686

4章成志.基于文本层次模型的Web概念挖掘研究.侯汉清指导.南京农业大学硕士学位论文,2002.6

5贾自艳,史忠植.基于概率统计技术和规则方法的新词发现.计算机工程,2004.30(20):1922

6俞君立,陈树年.文献分类法.武汉大学出版社,2001.10

7F. W. Lancaster,侯汉清,戴维民,陆宝树译.情报检索词汇控制.上海:同济大学出版社,1998

8朱连花.基于概念空间的信息检索方法研究.情报科学,20044:470474

9Godby.Carol Jean.Reighar, Ray. Usingmachine-readable text as a source of novel vocabulary to update the DeweyDecimal Classification. http://orc.rsch.oclc.org:5061/papers/sigcr98.html

108

11http://www.oclc.org/dewey/updates/default.htm

 

孔晨妍1982生,女,南京农业大学信息科学技术学院硕士研究生。

侯汉清  南京农业大学信息科学技术学院教授,中国索引学会副理事长。