中文叙词表发展概况和性能测评(1980-2009)
鲍秀林 吴雯娜
(中国科学技术信息研究所 北京 100038)
摘 要 基于收集到的153部中文叙词表,从出版年代、编制规模、学科分布等方面总结和概述我国1980-2009年期间叙词表的编制和修订情况,并从等同率、参照度以及逻辑错误等方面测评叙词表的性能,以揭示我国叙词表发展状况和存在的问题,以求为今后叙词表编制或修订提供参考依据。
关键词 中文叙词表 性能测评 质量分析 《汉语主题词表》(工程技术版)
Abstract:Based on the collection of 153 Chinese thesauruses during 1980-2009,this paper overviews the preparation and updatingconditions of these thesauruses on publication year, preparation scale,subjects and so on. Then, their performances are evaluated on the followingaspects: equivalence ratio, accessibility measure, logical errors, etc.Finally, the development situation and problems of thesaurus in China arerevealed in order to make a reference for the thesaurus preparation andrevision in the future.
Keywords:Chinese Thesaurus, Performance Assessment, Quality Analysis,《Chinese Thesaurus》(engineering & technologyedition)
叙词表的编制一般包括总体设计、词汇素材收集、建立词库、选词、编表、审核和试标引、传播与出版等步骤[1]。中国科学技术信息研究所于2009年启动《汉语主题词表》(工程技术版)项目,对国内中文叙词表进行广泛深入的调研,采集到153部中文叙词表信息。其中有版本信息内容的叙词表135部,有词汇信息内容的叙词表77部。本文第一部分依据135叙词表的外部信息(出版时间、出版机构、编制单位等)对20世纪80年代以来叙词表概况做了简要分析介绍;第二部分主要对77部词表的词汇信息(用项、属项、参项等)进行词表性能测评分析;第三部分是通过列举方式对叙词表质量做定性分析,包括有勘误和关系缺失,等同、等级以及相关关系的逻辑错误问题。
1 词表概况
1.1 出版年代分布
《汉语主题词表》(工程技术版)编制之初进行词汇素材收集时,通过搜索引擎、维普万方期刊网以及各大图书馆,共检索到153部相关中文叙词表资源信息,笔者将153部中有年代信息的135部叙词表的年代分布信息统计如下:
表1 叙词表编制或出版年代分布
| 年数 | 词表量 | 比例 | 年平均编表数 |
2000-2009 | 10 | 16 | 11.76% | 1.6 |
1990-1999 | 10 | 67 | 49.26% | 6.7 |
1980-1989 | 10 | 45 | 33.09% | 4.5 |
1970-1979 | 10 | 6 | 4.41% | 0.6 |
从表1中可以看出经过了20世纪70年代的初步探索,80-90年代叙词表编制进入了繁荣时期,之后叙词表的编制逐渐衰落。这与叙词表的实际应用是分不开的,叙词表编制之后,大多数叙词表没能得到很好的应用。
收集到的153部叙词表信息中,能查找到版本信息有127部,其中编制后未作任何修订的叙词表占88.98%,仅1.57%做过第三次修订,例如《中国中医药学主题词表》、《军用公文主题词表》这几部词表在专业标引上用得比较好,可见词表编制单位对词表的维护和修订大部分是根据其实际应用来决定的。
表2 叙词表修订情况
版本项 | 数量(部) | 比例 |
第3版 | 2 | 1.57% |
第2版或修订版 | 12 | 9.45% |
第一版或试用版 | 113 | 88.98% |
1.2 编制单位
表3表明,我国编制叙词表的主力军为科研、情报机构,他们编制词表数量占所有词表的79.3%,其他如高校、学术团体、公司的数量只占11.1%。另外表3数据中可看出我国学术团体和高校编制叙词表数量和份额远远低于国外。80年代后我国编制词表基本上都是由组织机构或者学术团体编制,个人独立编制几乎没有。笔者调研的153部叙词表中有5部来自国有大型企业的信息研究部门编制,与国外相比,我国公司编制词表非常少,可见我国企业对包括叙词表在内的知识组织系统的功能和价值缺乏了解,更没有意识到他们潜在的经济效益和社会效益。
表3 词表编制单位分布以及与国外比较
编制单位 数量/比例 | 科研、情报机构 | 政府部门 | 学术团体 | 学校 | 公司 | 联合国 | 个人 | 其他 |
中国 | 1980-2009 | 107 | 13 | 5 | 5 | 5 | | | |
比例 | 79.3% | 9.6% | 3.7% | 3.7% | 3.7% | | | |
国外 | 1962-1982 | 82 | 42 | 30 | 29 | 13 | 24 | 4 | 3 |
比例 | 36.1% | 18.5% | 13.2% | 12.8% | 5.7% | 10.6% | 1.8% | 1.3% |
说明:表3中国外数据部分摘自《国外叙词表的概括及发展趋向》[2]中“表4词表编制单位的分布”,便于比较,
笔者将“科研机构”与“文摘社、团以及情报中心”合并为科研、情报机构。
1.3 学科分布
在153部词表中,综合性叙词表有10部,占总数的6.58%;结合图1看,社科词表共有40部,军事叙词表比例较大,占社科的42.5%;自然科学、工程技术叙词表有103部,占68.42%,其中50部工程叙词表中各子学科分布比较平衡,但与其他学科数量相比较为偏低。总的来说,我国叙词表基本覆盖了各个学科领域,专业型叙词表唱主角,而且大多数都集中在自然科学和工程技术领域,其他领域如艺术有待进一步开发。
图1 词表的学科分布
1.4 词表规模
词表规模大小由叙词表收入词汇的数量来决定,即以它们收录的领域概念的多少予以测评,是衡量叙词表规模和词汇完备性的重要依据。根据叙词表词量的多少,将词量在10000以上称为大型词表,1000以下为小型词表,介于之间为中型词表[2]。在这153部词表中,有词量数据的词表共91部,词量都在1000以上,因此可见80年代以后编制的词表基本上都为大中型。从表4中可以看出,80年代以后大中型词表编制比例基本持平,中型词表略胜一筹。
从词表的年代分布来看(表5),80年代主要偏向编制中型词表为主,大型词表的编制数量非常少;90年代比例相当,或者说大型词表的编制赶上了中型词表的编制规模;到了20世纪,随着计算技术和网络信息的发展,叙词表的编制就朝着大型词表方面快速发展起来。
表4 叙词表规模的统计
| 大型叙词表 | 中型叙词表 |
数量(部) | 40 | 51 |
比例 | 43.96% | 56.04% |
表5 大中型叙词表的年代分布
| 大型叙词表 | 中型叙词表 |
总数 | 年平均数 | 总数 | 年平均数 |
2000-2010 | 11 | 1.1 | 2 | 0.2 |
1990-1999 | 23 | 2.3 | 27 | 2.7 |
1980-1989 | 6 | 0.6 | 22 | 2.2 |
2 词表性能分析
美国兰开斯特等学者提出,可以用关联比、参照度及等同率等主要指标来评价一部叙词表的性能[3]。现用这三项指标对词汇素材收集中有完整词汇数据的77部词表进行性能统计测评。
2.1 等同率
词汇的等同率是非叙词和叙词的比例。这是测试入口词丰富程度的一项指标[1]。入口词就如同自然语言与叙词表规范语言间的桥梁,可以实现自然语言词汇向规范词汇的映射,提高叙词表的应用性能。网络环境下,要实现海量信息的主题规范,实施自动标引,必须大幅增加叙词表的入口率。这反映了叙词表朝着与自然语言结合的方向发展的趋势。77部叙词表中,有3部90年代编制的没有等同关系,余下74部叙词表等同率的统计结果见表6:
表6 叙词表的等同率
时间段 | 词表数 | 叙词 | 非叙词 | 词表平均等同率 |
2000-2009 | 8部 | 197173 | 56416 | 28.61% |
1990-1999 | 45部 | 428643 | 80353 | 18.75% |
1980-1989 | 21部 | 191558 | 34495 | 18.01% |
在叙词表众多的交互参照中,最基本的关系是用代参照,词表的等同率是判断一部叙词表对同义词以及准同义词的控制情况。等同率高可以增加检索入口,提高词表的易用性,并在必要时对词汇的专指度加以控制。从表6中可以看出,21世纪叙词表的等同率较前10年增长10%,说明我国叙词表已经开始注重自然语言与规范语言的结合,等同率也有了较大提高。但是不论是等同率达28.61%的现在、还是平均等同率只有18.01%的80年代,都与国外80年代叙词表的等同率50%到60%左右皆相差甚远[2]。
2.2 关联比
关联比是指叙词表中叙词总数减去无关联词(没有属、分、参关系的词) 与总叙词数的比率,也就是说,叙词表中无关联词越少,关联比就越高,叙词表的网络性就越好[1]。因此,对这类无法通过语义网络进行查找的词汇,叙词表一般应当尽可能减少无关联词的数量,增加关联比。71部叙词表(77部中有6部无词间关系)的测试结果见表7:
表7 词表的关联比
时间段 | 词表数 | 平均关联比 |
2000-2009 | 8 | 0.86 |
1990-1999 | 43 | 0.80 |
1980-1989 | 20 | 0.79 |
从表7可以看出,1990-1999年间叙词表的平均关联比比80年代叙词表的平均关联比略为改善,增长0.01,21世纪之后编制的叙词表的平均关联比比80年代增长0.07,但是叙词表仍有多达14%的无关联词存在,给用户查词选词造成一定的困难。
2.3 参照度
参照度,是指一个叙词表中叙词所拥有参照的平均数,表明主题词之间关联的强度,是衡量叙词表质量的关键指标之一[1]。每个词拥有的参照项越多,词间关系越丰富,参照度就越高,词表揭示的概念语义网络越完善。77部叙词表中无词间关系的叙词表有6部,余下71部叙词表,按下列公式予以测评,测评的结果见表8:
属分项参照度=(属项参照数 + 分项参照数)/叙词总数
参项参照度 = 参项参照数/叙词总数
总参照度 =属分项参照度 + 参项参照度
表8 词表的参照度
时间 | 词表数 | 属分项参照度 | 参项参照度 | 总参照度 |
2000-2009 | 8部 | 1.77 | 0.19 | 1.95 |
1990-1999 | 43部 | 1.36 | 0.24 | 1.60 |
1980-1989 | 20部 | 1.39 | 0.18 | 1.58 |
国外学者认为,参照度的理想值在2-5,20世纪以后,我国叙词表的参照度接近2(1.95),前后十年的参照度都在增长,但增幅非常小,可见建立较高的参照度不是一件容易的事情。从表8中看出,目前叙词表中参项设置仍旧太少,应该着重提高参项参照度。增加叙词间语义关系,提高关联比和参照度,建立和完善概念语义网络,仍是今后叙词表编制和改建的重点。
3 词表质量分析
叙词表的编制最初完全由手工编制,随着信息技术的发展,出现了计算机辅助编表系统。不过无论是手工编表还是机辅编表,词间关系的建立很大程度上都依赖于人的判断。由于人的背景知识以及主观意识,或多或少影响着词表的编制质量。通常叙词表存在的错误类型有:字面错误、词间关系不闭合、用代关系混乱、等级和相关关系逻辑性错误等[4]。其中关系的逻辑错误是一种较复杂的情况,错误形式多变且难以发现。笔者对几部叙词表部分数据进行抽样校验,整理出了一些比较有代表性的叙词表错误。 (说明:下各例括号中数字为该叙词在原书中的页码。)
3.1 字面错误
不论是叙词表中的款目词还是参照关系中的参照词,都不可避免地存在字面错误(也称拼写错误),这些有字面错误的款目词会造成词表中部分关系不闭合。以下举例说明常发生字面错误的词汇类型:
(1)音同字异或字形相似:如像与象、形与型、形与性、合与台,靡与磨、简与筒等。
例①
非晶态半导体 无定形半导体
Y无定型半导体 D非晶态半导体
例②
电机 直流电机
F支流电机 Z电机
(2)外来的人名、地名等专有名词存在不同的译法
例③
焦耳-汤姆逊效应 物理效应
Z物理效应 F焦耳-汤姆森效应
(3)词中多字或少字
例④
半导体材料 Ⅳ-Ⅶ族化合物半导体
・化合物半导体 L半导体材料
・・Ⅳ-Ⅶ化合物半导体
例⑤
WALSH波雷达 沃尔什波雷达
Y沃尔什雷达 D WALSH波雷达
Z雷达
(说明:例①-⑤分别摘自《电子技术叙词表》第122、395;75、457;215、398-399;3、484;483、394页。)
3.2 关系缺失
在叙词表中,经常会出现遗漏款目词的现象导致对应关系缺失,此类错误在信息技术发达的现在,可以机器自动生成对应关系,关系缺失现象是可以完全避免的。以《兵器科学技术叙词表》[6]举例关系缺失现象如下:
(1)款目词不一致导致的关系缺失,如下“比热容”与“比热”:
例⑥
比热容 传导率 真实气体效应 热稳定性
F传导率 S比热 S气动效应 S稳定性
S热物理性质 C热导性 C比热 C低温试验
C量热学 高温试验
热阻 比热
真实气体效应
(2)无对应叙词导致的关系缺失,如下词汇在《兵器科学技术叙词表》中查无对应款目词:
例⑦ 例⑧
温控涂层 纵火体
D调温涂层 D火种
S涂层 S弹药部件
3.3 逻辑错误
在手工编表时代,概念间是否应建立词间关系完全靠编表人员的知识和经验加以联想和确定,具有很大的主观性和局限性。而后出现的机器辅助编表技术,还有一些如共现率[7]、相关度量化计算[8]等提供了判断依据,但是词间关系的建立仍依赖于不同“人”的个体知识和主观判断,难免会有不合理的情况出现。
(1)用代逻辑错误
等同关系逻辑错误主要有:
a、一个非正式主题词对应两个正式主题词,即多用,如下:
例⑨
军用物资 军用器材 距离测量仪器
F军需品 Y军用物资 D军用器材
S物资 F测距仪
例⑩
气化模铸造 实型铸造 铸造
Y实型铸造 D气化模铸造 D气化模铸造
S精密铸造 F精密铸造
b、用代混乱
例11
误差分配 精度分配 精度分析
Y精度分析 D误差分配 S分析
S分配
(说明:例⑥-11,15分别摘自《兵器科学主题词表》第29、94、1024、700;875;1018;505、493;657、755、1054;894、485;729页。)
(2)属、分逻辑错误
叙词表中等级关系可形象化地表示为以族首词为树根的树,在这种等级关系树中,存在着两种较为常见的逻辑错误:
a、循环错误:任意两点或多点间形成不符合逻辑的回路型关系链(图2)。
例12
电话设备 压缩扩充器 通信设备
*>压缩扩充器(下位词) *<电话设备 *>电话设备
<通信设备(上位词) *>通信设备 *>压缩扩充器
b、属、分叙词对应错误造成多属:如《林业汉语主题词表》中“华南兔”对应属项为“兔形目”,按下列关系推理实为“兔科”,于是造成了如图3所示错误(实线箭头指向分项)。
例13
华南兔 兔科 兔形目 鼠兔科
D短耳兔 S兔形目 S哺乳纲 S兔形目
S兔形目 F华南兔 F兔科
华北兔 鼠兔科
蒙古兔
雪兔
图2 “通信设备”示例
(3)相关关系逻辑错误
F.W.兰开斯特曾提出同一族系中的词汇可以通过属分关系来表达,不应该也没必要再建立相关关系,否则词表会过于累赘[10]。对于用属、分来表达词汇关系的叙词间不应再建立参照关系,所以对于参其属或参其分,均属于相关系逻辑错误中的一种。对于作为代项的非正式主题词不应该出现在参项当中,确切的说非正式主题词都不应该出现在属、分、参当中。在手工编表阶段,概念是否相关完全靠人工判断,出现错误或者不合理现象在所难免,但即便出现了机编辅助,上述所提的这些错误仍然在叙词表中出现。例如《交通汉语主题词表》是2007年利用了计算辅助编表技术编制,该部叙词表中除了没检测出参其代项错误,其他几项错误均有,如下:
图3 “华南兔”示例
(说明:例摘自《标准文献主题词表》105、680、589页;例摘自《林业汉语主题词表》183、471、476、441页。)
a、参其属项或分项
例14
流态
C:对流
F:不稳定流;流层;对流;非平衡流;逆流;稳定流;紊流;涡流;溢流;轴流
b、参其代
例15
射流计算机
D流控计算机
流体计算机
S数字计算机
C射流逻辑元件
流体计算机
c、参项为非正式主题词
例16
搅拌 撒布
D:拌合;拌和 S:工程施工
F:冷拌法;路拌法;热拌法;厂拌法 C:路面施工
路面施工 F:喷洒沥青
S:工程施工
F:撒布
C:层铺法;路拌法;厂拌法;热拌法;冷拌法;热铺法;冷铺法;贯入法;拌和;摊铺;……
(说明:例、摘自《交通汉语主题词表》283;232、351、289页)
上例词间关系可视化展示如图4(虚线箭头代表参照关系)。除了参项有非正式主题词的错误外,“路面施工”与“撒布”构成了参其属的逻辑错误。另外,“路面施工”参见了“搅拌”分项的所有词汇,笔者在此提出能否直接参照上位词“搅拌”的疑问,可行性有待商讨。
图4 《交通汉语主题词表》中词汇关系可视化展示
参考文献
1 马张华,侯汉清,薛春香.文献分类法主题词法导论(修订版) [M].国家图书馆出版社,2009:119-120,136
2 侯汉清,徐佳.国外叙词表的概括及发展趋势[J].情报学报,1989(5):378-386,361
3 F. W.兰开斯特.情报检索词汇控制[M].同济大学出版社,1992:85-86
4 熊霞,常春,吴雯娜.等级关系循环错误检查算法的设计与实现[J].现代图书情报技术,2010(5):18-22
5 信息产业部电子科技情报研究所.电子技术叙词表(2003年修订版)[M].信息产业部电子科技情报研究所,2003
6 兵器工业情报研究所《兵器科学技术叙词表》编制组.兵器科学技术叙词表[M].兵器工业出版社,1995
7 常春,赖院根.基于文献标题词汇共现获取词间关系研究[J].图书情报工作,2009,53(8):17-20
8 钟茂生,刘慧,刘磊.词汇间语义相关关系量化计算方法[J].中文信息学报,2009,23(2):115-122
9 胡锦等.标准文献主题词表[M].中国标准情报中心,1988
10 F. W.兰开斯特著,桑仁义译.叙词表词汇组织方法概述[J].图书与情报,1991 (2):49-53
鲍秀林 女,1982年生,本科,发表论文1篇。
吴雯娜 女,1973年生,副研究馆员,主要研究方向为知识组织,发表论文18篇,参编著作3部。