30年来中文叙词表修订概览(鲍秀林、吴雯娜)
发布时间:2018-09-26  浏览次数:191

30年来中文叙词表修订概览

 

鲍秀林 吴雯娜

(中国科学技术信息研究所 北京 100038

 

    本文主要从词表规模、词表宏观结构、词汇性能三个方面来对我国11部做过不同程度修订的叙词表进行统计分析,并对30年来我国叙词表的修订情况和特点进行简要概述,以便了解我国叙词表修订的状况、水平和存在的问题,为今后叙词表编制或修订提供参考。

关键词  中文叙词表  修订情况  词表规模  词汇性能

 

引言

我国最早使用和借鉴国外叙词表始于20世纪60年代,在80年代到90年代间,为满足用户对科技文献检索的需要,编制出版了不少专业或综合性叙词表,最多的时候编制了近百部。编完的词表后期维护却是一项长期工作,只有跟随信息处理技术的进展,不断地维护而更新完善,词表才能保持科学性、实用性,其生命力才能得以延续。但由于种种原因,这些叙词表用于文献标引以及网络应用却很少,没有得到应用使得编制单位对它们的维护修订概率比较低。1中是我国近30年来做过修订的叙词表相关信息,153部叙词表[1]中仅22部做过修订(公文叙词表不在统计内,与参考文献[1]统计的仅14部修订过有所出入,请谅解),修订率为14.4%可见我国不少词表编制单位对词表的维护和修订缺乏重视和投入。为了使这些耗资费力编就的叙词表能鲜活地适应新技术、新知识领域不断发展的需要,满足用户对文献检索查准、查全的迫切要求,对这些词表及时进行维护与修订是绝对必要的。

1  中文叙词表修订情况一览





111111


由于数据资源有限,笔者只详细调查了前11部叙词表的不同版本(余下11部只列出了最后版本信息),并从整体结构到内部使用性能做了一些统计分析,最后对我国近30年来叙词表修订情况做一简要概述,以期为今后我国叙词表编制或修订提供参考。

修订情况统计分析

针对11部不同版本叙词表,分别从如下几个方面进行定量统计分析。

2.1 词表规模

叙词表的收词量是衡量叙词表的规模和词汇完备性的重要依据[2]。叙词表收词应该做到涵盖学科知识面均匀、充分,适用性强,能满足文献保证原则。随着互联网技术发展和社会的进步,对检索系统的适用性和易用性提出了更高一些的要求,需要将陈旧以及无文献保证的词汇删除,将反映新技术、新事物的词汇收纳,除旧纳新才能使叙词表有新的活力,适应社会和时代的发展,满足用户的检索需求以及文献的整序,因此词表需要修订,更新词汇,更换新鲜的血液。

兰开斯特《情报检索词汇规范化》[3]一书中指出用于标引和查找的规范化词汇不是静止的,必然要随时补增。表211部叙词表,修订版本的词量绝对数量都在增长(见图1)。《电子表》和《地质表》经过第1版到第2版的高速增长,第3版增长速度开始下降,与“来兰和马普莱森的词汇增补曲线规律:起初增补较快,之后增补速度开始平缓”[3]的观点相一致。《国防表》持续高速增长曲线源自其从最初修订原则“覆盖国防科技领域各学科、各专业及其相关专业知识”[4]到电子版要求“编织成一部有完备词间关系、且能网上运行的多专业多学科叙词表”,融合了20多部叙词表的词汇,参考20多个专业表的名词术语[5],所以其增长率的14%发展到137%(表2),收词量非常大,仅次于收词量最大的《汉语主题词表》。

2  不同版本叙词表收词量及增长率

1  不同版本叙词表收词增长比例

2.2 词表宏观结构

一部完善的叙词表宏观结构包括两个相互补充的组成部分:字顺表和范畴表。我国叙词表的模式基本固定,以《汉语主题词表》为母版:字顺表+范畴表+词族索引+轮排索引+英汉对照索引+附表(见表3),其他专业性叙词表不论新旧版本基本上逃离不出这个基础的模式,或根据自身的特点和需求少其中一些部分,来发展自己的构成。

3中,《电子表》的修订版取消了试用版的词族索引和英汉对照索引;新版《国防表》取消了词族表;《水利表》取消了英汉对照索引;《机械表》修订版本取消了附表;《汉表-自科》修订版本取消了附表,增加了轮排索引;新版《化工表》也取消了附表,同时“范畴分类索引”命名上改成了“范畴词族分类索引”,将该表中范畴索引和词族索引二者合一的独特之处才从字面上体现了出来,其意义在于打破旧的框框,从传统粗略的范畴表引入一个详细的分类索引。然我国叙词语言也应向着分类主题一体化的方向发展,实现词表的结构优化和检索功能的强化。《中分表》就是将分类体系与叙词体系相融合的典范,将传统的宏观结构简化为分类-主题对应表、主题-分类对应表两大部分,其功能大大优化,便于检索,便于分类标引和主题标引的相互转换。

3   不同版本叙词表宏观结构

2.3词汇性能统计

国外学者兰开斯特提出用等同率、关联比、参照度、清晰度、先组度等几个指标来评价叙词表的性能[3]。简便起见,笔者只选取较为常用的前三个指标来分析。由于叙词表编制说明会将词表的叙词总量和非叙词总量告知,等同率可直接算出。考虑对纸版数据统计关联比和参照度的难度,笔者采用对11部叙词表的不同版本数据按总页数的5%来抽样统计,测评不同版本叙词表的性能(注:国防表电子版数据未开放,关联比和参照度未做统计)。

2.3.1词汇等同率

又称入口率,是叙词表中非叙词与叙词的比例,是一项测试入口词丰富程度的指标[2]。等同率提高,一方面词表易用性更好,便于标引;另一方面能提高检索效率,便于用户查找,即输入自然语言就可以通过语义转换成规范主题词。国外叙词表的等同率一般在50%-60%以上[6],部分接近或超过1。从图2看,这几部叙词不论新旧版本等同率没有超过50%的,普遍不高。

4  不同版本叙词表的等同率

不过,从表4中新旧版等同率比较来看,大部分叙词表新版的等同率有所改善,表明编表人员已经开始更多的去考虑用户的方便和检索需求,重视起自然语言和规范性语言的结合,增加入口率。随着数据库、网络、通信等技术的发展,叙词表自然语言化趋势越来越明显。中分表在修订之初就提出:大量增补入口词,使《中分表》朝与自然语言结合方面迈进[7]。第一版等同率为14.49%,新版等同率为32.20%,增长120%,此为新版《中分表》一大优点。而《汉表-自科》新版就比修订前的等同率要低,可见在修订之前订立叙词表的修订原则和指导思想还是十分重要的。

不同版本叙词表的等同率

2.3.2 关联比

        关联比是叙词表中有参照项(属、分、参)的叙词总量与总叙词量之比[2]。关联比越高,无关联词少,标明叙词表的网络性能较好。对11部叙词表的不同版本关联比进行统计如下(表5):

5  不同版本叙词表的关联比

 从表5的数据和图3直观来看,有6部叙词表新版本比较旧版的无关联比有所改善,其中《国防表》的关联比比较高,接近1。《航空表》在83年补充了《汉英主题词索引》,90年修订出版了字顺索引和分类索引两部分,虽然也增加和删除以及修改了大量的款目词,但是对表中的属、分、参关系一直未继续完善(故表6中未做新版参照度统计)。从统计数据看出,并非所有新版的关联比均比旧版的好,如《电子表》、《地质表》、《核表》、《化工表》4部叙词表词量上有了较大改善,但无关联词也大量存在着,这些无关联词的存在给用户查词、选词造成一定的困难。

3  不同版本叙词表的关联比

2.3.3参照度

        参照度是指叙词表中每个叙词所含属、分、参的平均数。参照度高,词间关系能得到有效揭示,词汇见的相关性就强。通过对11部叙词表数据按总页数的5%进行抽样统计款目词中属、分、参的数量,用公式:属分参照度=(属项+分项)/叙词数;相关参照度=参项/叙词总数;总参照度=属分参照度+相关参照度。计算结果见表6

6   不同版本叙词表的参照度

一般认为理想的参照度值是在2~5之间[2],从表6可知,《核表》的参照度(第14.5,第25.1)还是比较理想的,其他几部叙词表新版参照度普遍也优于旧版,而《电子表》修订版的参照度与试用版相比不是特理想,这与新版大量增加叙词而来不及去完善词间关系有关。建立较高而有效的参照度,增强叙词间语义关系,改善属分参照度和相关参照度,建立完善的语义网络,该成为今后叙词表修订的重点。

小结

综上所述,通过修订后词表规模、词表结构,等同率方面统计分析,发现所有词表在修订后,词量都是不断增加的,词汇性能大多数是优于旧版,组织方式以及显示方式也开始更多的为用户的方便和需求着想。但依然存在一些问题:1)重编制,轻修订。我国叙词表的情况是编制多,130多部词表只有20部修订,仅占15.3%,百余部词表出版后无人维护。。(2)重词量增加,轻适应性改造,除个别词表着力改进其宏观结构和微观结构,提升其功能,95%以上的词表只是词汇的增删改。(3)手工维护为主,机器维护较少。我国叙词表修订,依然离不开人工,词间关系建立既然主要依靠人工判断。4)所有修订的词表离网络词表还有一段距离,目前也仅有《国防表》、《中分表》电子版做到了网上运行,并且与标引系统相结合使用。(5)我国叙词表的宏观结构还不够简明,在机编的环境下,组织结构可以更为灵活,未来词表宏观结构可以考虑字顺表+范畴表+等级索引这三种简而精的体系。比较可喜的是中国科学技术信息研究所自2009年开始组织了由6所高校和9所科研机构组成的团队对《汉语主题词表》(工程技术版)进行了修订和重新编制,重新希望以此能带动我国叙词表修订的热潮。

 总之,叙词语言的发展不是对其存在和应用价值的否定和摒弃,更不是要重新回到自然语言检索的原始时代,而应充分吸收自然语言的优点和长处,与计算机、网络技术相结合,不断充实提高,发展成为适应网络环境下的新一代检索语言。——(在此特别感谢侯汉清老师提供诸多建议和帮助。)

 

参考文献

鲍秀林,吴雯娜中文叙词表发展概况和性能测评(1980-2009) [J].图书馆论坛,20124):101-106

马张华,侯汉清,薛春香编著.文献分类法主题词法导论(修订版) [M].国家图书馆出版社,2009119-120122-12,134

3 F. W.兰开斯特著,杨劲夫译.情报检索词汇规范化 [M].科学技术文献出版社,1982:111

《国防科学技术叙词表》编制组编.国防科学技术叙词表(1991年版)[M]..军事科学出版社,1991

龚昌明.电子版《国防科学技术叙词表》编制技术[J].情报理论与实践.19992:123-126

侯汉清,徐佳.国外叙词表的概括及发展趋势[J].情报学报,1989(5):378-386361

卜书庆,陈树年.《中国分类主题词表》修订的整体构想[J]. 中国图书馆学报,20006):13-16

 

鲍秀林  女,1982年生,本科,发表论文2篇。

吴雯娜  女,1973年生,副研究馆员,主要研究方向为知识组织,发表论文20多篇,参