《中国分类主题词表》(第二版)评介
本文系国家社会科学基金项目(05BTQ021及01BTQ010)的研究论文。感谢中图法编委会卜书庆研究馆员为本文的写作提供重要数据。
侯汉清 李 华
(南京农业大学信息管理系 210095)
摘 要 《中国分类主题词表》是我国规模最大的一部分类主题一体化词表。本文从规模和性能上对其新旧两个版本进行了测评和比较,分析了新版词表的优点和不足,并提出一些改进建议。
关键词 《中国分类主题词表》 等同率 关联比 参照度 叙词表评价
《中国分类主题词表》(简称《中分表》)是在《中图法》第三版和《汉语主题词表》第一版的基础上编制的、两者兼容的一体化情报检索语言,是一部大型综合性的信息文献标引工具[1]。它问世后在图书馆及情报界得到了广泛应用,还两次荣获国家科技信息优秀成果奖二等奖及国家社会科学基金项目优秀成果奖二等奖。但是,1994年问世以来,它一直未能进行全面的修订,严重影响了它的使用和推广。终于在2005年9月由北京图书馆出版社出版了第二版,包括印刷版和电子版。本文拟从词表规模和性能两个方面对《中分表》新旧两个版本(CCT1和CCT2)进行定量测评和比较,并简要评价其长短得失。
1 词表规模测评
叙词表的规模和词汇的完备程度主要用收词数量来衡量。叙词表应当做到收词充分、适用、均匀。《中分表》是我国目前规模最大的一部综合性词表,两个版本的类目数及词量见表1:
表1 CCT1和CCT2词表规模的比较
项目/版本 | 《中分表》第一版 | 《中分表》第二版 | 《中分表》二版增减 |
类目数 | 50317 | 52992 | +2675 |
正式叙词 | 101376 | 110837 | 9461(实为+21607) |
非正式叙词 | 14690 | 35690 | +21000 |
叙词词串 | 约 102000 | 59738 | 约 -42000 |
CCT2与CCT1相比,正式叙词的绝对数量只增加了9461个,但CCT2删除了CCT1中12115个无文献保障或标引频率低的叙词(或将其改为入口词),所以CCT2实际新增的叙词为21607个。从表1可以看出,CCT2大幅度减少了叙词词串数量,其主要原因在于:①CCT2取消了旧版中全部叙词词串的轮排;②增加了一大批先组词,以代替词串(如:CCT2增设先组词“教育思想史”,以代替CCT1的词串“教育思想―历史”);③CCT2取消旧版为各专用复分表设置的对应叙词和叙词词串。另外,CCT2不仅把原来的《中图法》第三版转换为第四版(增加了2000多个类目),而且还对第四版的部分类目(共101条)进行了修订,对旧版《中分表》的分类号、类名、注释、对应的叙词及其参照关系也进行了全面系统的修订,调整和完善了对应表的体系结构[3]。
2 词表性能测评
2.1 类目对应标引深度
标引深度一般是指对文献内容进行周详标引的程度,简单地说是指标引一种文献所用的标识的数量[4]。对于《中分表》来说,类目对应标引深度,就是用《汉语主题词表》的叙词标引《中图法》类目包含的主题内容的周详程度,即每个类目平均对应标引的叙词或叙词词串的数量。类目对应标引深度过低,则对隐含概念挖掘不足;过高则可能造成冗余。用公式“类目对应标引深度=类目对应的叙词及叙词词串总数/ 类目总数”,对新旧两个版本的F、G、S及TP等大类的全部类目进行测度和比较。
表2 CCT1和CCT2类目对应标引深度的比较
版 本 | 《中分表》第一版 | 《中分表》的第二版 |
大 类 | F类 | G类 | S类 | TP类 | F类 | G类 | S类 | TP类 |
类目数 | 1420 | 1341 | 4437 | 429 | 1577 | 1426 | 4479 | 524 |
正式叙词及词串数 | 5646 | 4189 | 9907 | 2110 | 8928 | 5415 | 11602 | 3145 |
类目对应标引深度 | 3.98 | 3.12 | 2.23 | 4.92 | 5.66 | 3.80 | 2.59 | 6.00 |
合 计 | 2.87 | 3.63 |
统计结果(见表2)表明,CCT2的类目对应标引深度比CCT1提高了0.76,增幅达四分之一,其中F类(经济)和TP(计算机科学)大类的增幅较大。这是因为类目对应的叙词或词串的增幅与学科的发展速度密切相关,经济学科及计算机技术发展较快,出现的新概念较多,新增的叙词或词串也相应较多,F大类和TP大类的增幅为1.68和1.08;而农业学科(S大类)因为农业科技发展相对稳定,叙词或词串的增幅也相对较小,仅比CCT1增加了0.36。
2.2 词汇先组度
一个复合概念既可以用两个或多个表达简单概念的单元词(单一词)组配表示,也可以用一个先组词(即复合词)表示。先组度是指先组词在叙词表中所占的比例,是衡量词汇专指度的重要指标。词汇的先组度可以用每个叙词平均包含单元词的多少来计算,计算前要先对叙词进行分词处理。考虑到汉语分词的困难,本文采用一种变通的“相对先组度”计算方法,即计算每个正式叙词(不计算词串)平均包含的单汉字的数量。用此方法对两个版本进行了抽样统计(不包括词串),计算公式为:“相对先组度 = 正式叙词所含单字的总数 / 正式叙词总数”(单字可以重复计算)。
表3 CCT1和CCT2先组度的比较
项目 /版本 | 《中分表》第一版 | 《中分表》第二版 |
词汇数 | 3280 | 3259 |
总字数 | 13564 | 13724 |
相对先组度 | 4.14 | 4.21 |
统计结果(见表3)表明,新旧两版的相对先组度基本持平。这说明它们版本的选词标准相同,而且都对先组词的词长和收录比例加以控制,确保了词表的专指度和标引、检索的便利性。
2.3 等同率
又称入口率,指词表中非叙词与正式叙词的比例,是测试入口词丰富程度的一项指标,表明词表对同义词、准同义词的控制状况[5]。较高的等同率可以增加检索入口,方便用户检索。本文利用公式:“词汇等同率 = 非叙词总数 / 正式叙词总数”,对这两个版本进行测度和比较。
根据《中图法》编委会提供的数据计算,CCT1词汇等同率为0.15,CCT2为0.32.与之相比,本文抽样统计的结果略高一些,分别为0.17和0.39(见表4)。由两组数据可以看出,CCT2的等同率比CCT1提高了一倍多。这是因为词表编委会为了提高《中分表》与自然语言的兼容能力,将“增补入口词,使《中分表》趋于自然语言化[2]”作为修订的重点之一。为此,CCT2增加了大量的同义词、准同义词和主题概念的不同表达方式。另外,CCT2为了尽量减少改版给标引和检索带来的影响,还将一批被删除的正式叙词改为入口词。
表4 CCT1和CCT2词汇等同率的比较
项目 /版本 | 《中分表》第一版 | 《中分表》第二版 |
叙词数 | 2807 | 2308 |
入口词数 | 473 | 901 |
等同率 | 0.17 | 0.39 |
2.4 关联比和参照度
关联比是指词表中至少有一个分项、属项或参项参照的叙词与正式叙词总数之比[5],是测度词表中词汇间的关联程度的指标。参照系统中无任何语义关系的词叫无关联词,对这类词的查找无法通过语义网络进行。因此,词表一般应当尽可能减少无关联词的数量,增加关联比。本文利用公式“关联比 =(正式叙词总数―无关联词总数)/ 正式叙词总数”,对两个版本的关联比进行测度和比较:
表5 CCT1和CCT2关联比的比较
项目 /版本 | 《中分表》第一版 | 《中分表》第二版 |
正式叙词数 | 2807 | 2800 |
无关联词数 | 591 | 528 |
关联比 | 0.79 | 0.81 |
表面看来(见表5),CCT2的关联比仅比CCT1提高了0.02。由于这次修订删除了旧版12115个冗余的叙词(其中大多是无关联词),实际上新版的关联比已经比旧版有了改善。但是,词表中仍有近20%的正式叙词是无关联词,给用户的查词选词造成一定困难。
参照度指词表中的正式叙词接受参照数量的平均数,可以表明词汇之间的联系程度[5]。参照度高,词汇间的相关性强;参照度低,则难以对词间关系进行有效的揭示。对两个版本进行了抽样和测度时,统计其叙词款目中的各种参照的数量(CCT1叙词款目中的“S”项和“F”项参照数,是到族首词下查找所得),代入公式:“SF项参照度 = (S项参照数 + F项参照数)/ 正式叙词总数”、“C项参照度 = C项参照数 / 正式叙词总数”及“总参照度 = SF项参照度 + C项参照度”,对两个版本的参照度进行了测度和比较。
由表6可知,CCT2的SF项参照度与C项参照度均比CCT1仅增加了0.10,总参照度比CCT1增加了0.20,增幅都很小。这与新版大幅度增加叙词、来不及详细构建新增概念的词间关系,有着密切的关系。由此可见,建立较高并有效的参照度绝非易事。增加叙词间的语义关系,改进《中分表》的关联比和参照度,建立和完善概念语义网络,将是下一版修订的重点。
表6 CCT1和CCT2参照度的比较
项目 /版本 | 正式叙词数 | SF项参照数 | SF项参照度 | C项参照数 | C项参照度 | 总参照度 |
《中分表》第一版 | 2807 | 4119 | 1.47 | 1236 | 0.44 | 1.91 |
《中分表》第二版 | 2800 | 4407 | 1.57 | 1524 | 0.54 | 2.11 |
3 新版《中分表》简评
《中分表》的修订工作经过数十人长达四年的努力,达到了预定的修订目标,取得了两大成果:其一是首次推出了精心设计的《中分表》的电子版,其二是完成了全面升级换版,终于在《中分表》首次出版的11年之后推出了全新的第二版。
3.1 电子版的推出在多方面弥补了印刷版的不足
这是新版《中分表》最大的成果。电子版是以《中分表》(CCT1)编制规则和“叙词机读规范数据库”、“《中图法》第四版机读数据库”为基础,兼顾印刷版的需求而开发的、电子化的信息资源组织工具[3]。它免除了用户在旧版的六大分册之间来回翻检的烦恼,增强了词表的易用性,大大提高了标引和检索的效率。
其研制原理是通过软件开发把分类法―叙词表结构化的机读数据,采用多文档用户界面进行设计,以子窗体的形式,分别显示了“分类表”、“主题表”及"词族表",还提供了还原印刷版页面格式的“浏览表”,并用动态手段再现分类主题一体化的对应转换结构及其语义结构。CCT2电子版可通过多种浏览方式和检索方法来实现各种条件下的分类主题一体化检索及各种需求的一体化显示功能,并通过超文本技术实现了类目间、叙词间、类目与叙词间的自动链接,大大降低了印刷版查找的复杂程度和实施缩检、扩检的难度,实现了真正意义上的分类主题一体化标引和检索,提高了信息资源的加工效率,同时提供了一个知识和文献信息检索服务的平台[7]。
与国外综合性检索语言的电子版相比,在结构设计、软件制作、界面友好性及功能实现等方面,《中分表》可以说是并不逊色。在收录类目及其对应词串的数量、概念关系的显示及软件的易用性等方面,与《杜威十进分类法》第21、22版的光盘版相比,《中分表》甚至可以说是略胜一筹。
3.2 全面的修订使《中分表》焕然一新,性能大为改善
经过修订,《中分表》的整体性能得到了提升,主要体现在以下几个方面:
(1)大大扩充了词表的规模。这次修订依据文献保障原则,采用了词频统计技术,对《中国国家书目数据库》、《中文社科报刊篇名数据库》及《中文科技期刊数据库》中的叙词和关键词的标引频率进行了全面的统计和分析,在此基础上删除了CCT1中12115个冗余叙词,同时又增加了2万多个正式叙词和2万多个非叙词。大幅度扩容后的《中分表》已经成为世界上规模最大、收词最多的分类主题一体化词表。
(2)大大改善了词表的性能。上述测度表明,CCT2的词汇等同率、关联比、参照度、先组度等各项指标均高于CCT1。其中新版词汇等同率翻了一番,使《中分表》在自然语言化的道路上迈出了一大步。另外,CCT2对叙词的参照关系进行了一些调整,订正了CCT1的不少错漏,改进了词汇间的关联性。这一切为《中分表》以后在网络信息资源组织的应用,提供了重要的条件。
(3)简化了词表中的各种专用符号。CCT1的格式复杂,符号繁多,例如用“:”表示概念的相交组配、“-”表示限定组配、“,”表示倒置组配、“△”表示对前面叙词起修饰作用的自然语言、“[ ]”表示交替类目和对应多个类目的叙词在非主要类目处的显示等。因此,就大大降低了词表的可读性和易用性。
CCT2删除了上述各种专用符号,全部以反斜杠“\”代之;并用新增加的双竖线符号“| |”,代替以前采用的方括号“[ ]”,以表示叙词在非主要类目处的显示。例如:
《中分表》第一版 《中分表》第二版
国际法:债权法 国际法\债权法
涉外案件-认证 涉外案件\认证
国籍法,各国△ 国籍法\世界
[步兵五大技术训练] |步兵五大技术训练|
事实上CCT1用于概念组配的专用符号对大众用户来说意义不大,却使得叙词表变得复杂难懂。简化叙词款目格式和专用符号后,CCT2更加适合于新的网络环境。因为《中分表》一旦应用于因特网,它的用户将不再是少数的、经过训练的专业用户――图书馆员和情报人员,而是广大的不同水平或层次的、不同教育背景的大众用户。因此,《中分表》的各种符号、版式及标引规则等,都必须根据信息环境和用户的巨大变化而做出相应的变动。
(4)电子版和印刷版进行了必要的分工。由于CCT2电子版容量大,使用方便,因此电子版可以利用各种手段,充分显示各级类目对应的专有名称叙词、叙词词串以及叙词表中的各种词间关系,包括旧版省略的叙词款目中的属项和分项(改用族首词等级关系全显示),而且还增加了叙词的英文译名。这一切为用户的检索提供了方便。
为了方便翻检和节省篇幅,CCT2印刷版在结构上与电子版有所不同,不设置字顺简表和词族表。第二卷“主题词-分类号对应表”省略了名称叙词(包括人名、团体机构名、题名)及类目对应的叙词词串,叙词款目仍不显示其属项和分项。这些措施大大压缩了印刷版的篇幅(估计多达上千页),使得CCT2印刷版第二卷主题词-分类号对应表更像一部叙词表,其功能更加明确,使用起来更加便捷。
3.3 《中分表》第二版的不足
3.3.1 类目对应标引深度较低,不能满足自动分类的需要
根据对CCT2的F、G、S及TP等大类的统计,平均每个分类号对应3.63个叙词或叙词词串,其中F大类为5.66,比CCT1增加了1.68(见表7),是四个大类中增幅最大的。用国家社科基金项目“基于知识库的中文信息自动分类和自动标引”的研究成果[8]――“分类知识库"的F大类与CCT1、CCT2进行比较。
表7 分类知识库与《中分表》(经济大类)类目对应标引深度的比较
项目 /版本 | 《中分表》第一版 | 《中分表》第二版 | 分类知识库 |
类目数 | 叙词及词串数 | 类目数 | 叙词及词串数 | 类目数 | 词串数 |
F0 | 156 | 836 | 172 | 1139 | 172 | 8331 |
F1 | 92 | 317 | 104 | 675 | 103 | 31872 |
F2 | 271 | 1097 | 293 | 2011 | 292 | 92269 |
F3 | 165 | 646 | 168 | 757 | 168 | 21023 |
F4 | 162 | 510 | 163 | 730 | 163 | 34182 |
F5 | 172 | 342 | 211 | 613 | 211 | 8604 |
F6 | 54 | 174 | 56 | 196 | 56 | 1697 |
F7 | 172 | 751 | 225 | 1292 | 225 | 29527 |
F8 | 144 | 767 | 184 | 1502 | 184 | 51283 |
总计 | 1389 | 5450 | 1577 | 8928 | 1575 | 278799 |
对应标引深度 | 3.92 | 5.66 | 177.02 |
结果表明(见表7),CCT2的类目对应标引深度(即收录的词串数量)远远低于用于自动分类的知识库,仅为其1/30,根本无法满足自动分类时进行词串匹配或相似度计算的需要。
3.3.2 词表修订周期过长,词汇更新严重滞后
《中分表》修订工作的选词和审词阶段早在2003年9月已经全部完成,而新版词表直到两年后才正式出版。这两年出现的反映众多新事物和新概念的新词,就可能被排除在CCT2之外。笔者搜集了2003年及2003年以前出现的、网络评选公认的176个新词(或流行语),逐个在CCT2电子版中进行检索。结果发现其中有121个是CCT2没有收录的,未收新词的比率高达69%,其中就包括:“AA制”、“白色污染”、“保健食品”、“博彩业”、“拆迁户”、“春运”、“黄金周”、“纯净水”、“低保”、“厄尔尼诺现象”、“二手房”、“反不正当竞争法”、“高新技术产业开发区”、“国家公务员制度”、“黑客”、“垃圾邮件”、“丁克家庭”、“小灵通”等使用率极高的新词,更不用说近年来才出现的“苏丹红”、“禽流感”、“网络游戏”、“闪客”、“博客”、“MP4播放器”等。
由此可见,《中分表》修订周期过长,使得词汇更新严重滞后。建议尽快推出《中分表》的网络版,并定期维护和升级换版,最好每年推出一个更新版,每季度公布一次新增的叙词(含词串)和类目。同时可以在网站上设置建议窗口,吸纳用户在使用过程中发现的新词,使《中分表》能够跟上时代的步伐。
3.3.3 词表的性能和功能有待完善
前文述及,CCT2的等同率与CCT1相比,已经有了大幅度的提高,但还是不能满足今后网络大众用户使用自然语言检索的需求。据统计,早在上世纪80年代国外一些大型词表的平均等同率已经达到了0.62,部分词表的等同率接近或超过1[6]。因此今后对《中分表》的修订应当继续把增加入口词,提高等同率作为修订的重点。根据抽样统计的数据,CCT2的关联比和参照度仍然偏低,显然仍有较大的提升余地。《中分表》今后的修订应当尽量减少无关联词的数量,加强对叙词概念之间关系的语义分析,逐步完善词表的语义网络,使其成为网络实现信息资源的概念检索和智能检索的重要语义工具。
另外,CCT2电子版中的专用符号仍不够直观,大众用户使用起来仍感到不便。建议把Y、D、S、F、C、Z等专用参照符号,全部换成是一看就懂的语词,以提高词表的可读性和易用性。必须摆脱以往印刷版词表的惯性,从系统易用性和界面友好性的要求出发,对《中分表》结构、符号和显示方式等进行一次全面的审视和改造,在此基础上不断推出新的升级版本。
当然《中分表》今后还应当在完善其标引和检索功能的基础上开发新的功能,诸如:检索语言互操作、元数据自动生成、网络检索的自动查询扩展、计算机辅助标引、自动标引、自动分类等,并为本体、主题图、语义网络等新型知识组织系统的研制,提供词汇和语义资源,发挥其在网络信息资源组织中的不可替代的作用。
3.3.4 印刷版版面设计有待改进
首先,CCT2印刷版将分类号置于款目词下,另占一行,导致排版密度低,浪费篇幅。抽样统计结果显示,平均每个叙词对应1.22个分类号,也就是说至少80%的叙词都只对应一个分类号,完全可以把分类号置于款目词之后,共占一行。据粗略计算,如果改用这种方法,不仅可以提高词表的“一次浏览页面款目数”,而且可以节约88000多行,相当于880多页的篇幅。其次,如果能够像《军用主题词表》、《农业科学叙词表》等大型词表那样,改排成三栏,缩小行距,加大排版密度,还可以进一步压缩篇幅,方便用户的使用。第三,CCT2的印刷版及电子版对叙词和入口词都进行了加粗显示,突出了款目词,但是正式叙词与非叙词却未加区分,二者容易混淆。笔者认为,如果仿效《军用主题词表》,只加粗正式叙词,不加粗非叙词,会更加醒目,可以大幅度地减少使用非叙词标引的错误。
参考文献
1 《中国图书馆图书分类法》编委会.中国分类主题词表.北京:华艺出版社,1994.6
2 国家图书馆《中国图书馆分类法》编辑委员会.《中国分类主题词表》(第二版)●编制说明.北京:北京图书馆出版社,2005.9
3 http://www.nlc.gov.cn/forlibs/zhongtufa/ztcb.htm
4 张琪玉,刘湘生等.中国分类主题词表教程.北京:华艺出版社,1994.6
5 侯汉清,马张华.主题法导论.北京:北京大学出版社,1991.9
6 侯汉清.当代分类法主题法索引法研究.北京:书目文献出版社,1993.10
7 http://www.library.hb.cn/sy/20051018/3562.asp
8 薛春香,侯汉清.用于自动分类的《中图法》知识库的构建.中国图书馆学报,2005(5)
侯汉清 南京农业大学信息管理系教授,中国索引学会副理事长。