四十年来中文叙词表修订情况概览鲍秀林 吴雯娜
发布时间:2018-09-25  浏览次数:53

四十年来中文叙词表修订情况概览

 

鲍秀林  吴雯娜

(中国科学技术信息研究所  北京 100038

 

    本文主要从词表规模、词表结构、词汇性能三个方面对我国11部做过不同程度修订的叙词表进行统计分析,并对四十年来我国叙词表的修订情况进行简要概述,便于了解我国叙词表修订的状况、水平和存在的问题,为今后叙词表编制或修订提供参考。

关键词  中文叙词表  修订情况  词表规模  词汇性能

 

Abstract: This paper mainly analyzes 11 Chinese thesauruson size, structure and performance which had been revised in different levels.The situation and characteristics of these revisions of the Chinese thesaurusin the recent 40 years are also summarized, which can help understand therevision status, level and problems of Chinese thesaurus and provide referencefor the future.

Keywords: Chinese Thesaurus, Revision Status, Size of Thesaurus, TermsPerformance

 

1  引言

我国最早使用和借鉴国外叙词表始于20世纪60年代,80年代到90年代间,为满足用户对科技文献检索的需要,编制出版了不少专业或综合性叙词表,其数量达到150多部。然而词表后期的应用和维护却是一项长期工作,只有跟随科学技术的发展,在实际使用中不断地维护、更新和完善,词表才能保持科学性、实用性,其生命力才能得以延续。表1中列出了我国近四十年来做过修订的叙词表相关信息,153部叙词表[1]中仅22部进行了修订(公文叙词表不在统计范围内,与参考文献[1]给出的仅14部修订过有所出入),修订率为14.4%。由此可见,在我国,只有少部分单位重视词表的维护和修订,并给予财力和人力的投入。国内外的经验表明,为了使这些耗资费力编就的叙词表能适应新学科、新技术的不断发展,满足用户对文献检索查准、查全的迫切要求,对其及时进行维护与修订是绝对必要的。

 

1 中文叙词表修订情况一览

ID

叙词表

版次

出版年

著者

版本项

1

电子技术汉语主题词表(试用本)

试用版

1977

第四机械工业部第一研究所

纸版

电子技术叙词表

1

1988

信息产业部电子科技情报研究所

纸版

电子技术叙词表(2003修订版)

修订版

2004

信息产业部电子科技情报研究所

纸版、电子版

2

地质学汉语叙词表(试用版)

1

1984

《地质学汉语叙词表》编辑组

纸版

地质学汉语叙词表

2

1996

宣桂香

纸版

地质学汉语叙词表

3

2010

史静、刘素芳、刘振锋

纸版

3

国防科学技术叙词表

1

1985

国防科委情报研究所

纸版

国防科学技术叙词表

2

1991

《国防科学技术叙词表》编制组

纸版、电子版

国防科学技术叙词表(未公开)

3

1998

《国防科学技术叙词表》编制组

电子版、网络版

4

航空科技资料主题表

1

1971

第三机械工业部第六二八研究所

纸版

航空科技资料主题表

2

1977

第三机械工业部第六二八研究所

纸版

国防科技工业叙词表(未公开)

3

1995

航空航天工业部航空科学技术情报研究所

电子版

5

机械工程主题词表

1

1979

第一机械工业部技术情报研究所

纸版

机械工程叙词表

2

1990

《机械工程叙词表》编制组, 傅兰生、朱光世

纸版、电子版

6

汉语主题词表(试用版)

1

1979

中国科学技术情报研究所、北京图书馆

纸版

汉语主题词表自然科学增订版

2

1991

中国科学技术情报研究所

纸版、机读磁带版

7

化工汉语主题词表

1

1983

《中国化工文摘》编辑部

纸版

化工汉语叙词表

2

1996

《中国化学化工文摘》编辑部

纸版、电子版

8

水利水电科学技术主题词典

1

1987

水利电力部科学技术情报研究所

纸版

水利水电科技主题词表

2

1998

水利部信息研究所

纸版

9

钢铁工业主题词表(第一版)

1

1987

严关宝、赵金铠

纸版

钢铁工业主题词表(第二版)

2

1991

冶金部情报标准研究总所

纸版、电子版

10

核科学技术叙词表

1

1988

中国核情报中心

纸版

核科学技术叙词表

修订版

2006

中国核情报中心

纸版

11

中国分类主题词表(第一版)

1

1994

《中国图书馆图书分类法》编委会

纸版

中国分类主题词表(第二版)

2

2005

国家图书馆《中国图书馆分类法》编辑委员会

纸版、电子版、网络版

12

体育汉语主题词表

2

1990

《体育汉语主题词表》编制组

纸版、电子版

13

计量学与测试技术主题词表

2

1993

中国技术监督情报研究所词表编辑组

纸版、电子版

14

农业科学叙词表

2

1994

农业部情报研究所

纸版、电子版

15

石油化工汉语叙词表

2

1994

中国石化信息研究所

纸版

16

汽车工程叙词表

2

1995

《汽车工程叙词表》编制组

纸版

17

中国档案主题词表

2

1995

《中国档案主题词表》编委会

纸版

18

邮电通信技术主题词表(修订版)

2

1997

《邮电统计技术主题词表》编委会

纸版

19

军用主题词表

2

2000

军事科学院

电子版

20

中文主题词表

修订版版

2005

中文主题词表编订小组

电子版

21

交通汉语主题词表

2

2007

交通部科学研究院

纸版、电子版

22

中国中医药学主题词表

3

2008

中国中医研究院、中医药信息研究所

纸版、电子版

注:①1965年版的《航空科技资料分类主题表》是一部标题表,未列入表中;1971年编制的《航空科技资料主题表》是叙词表;1978-1993年间航空工业中心628所有陆续对该表的字顺索引、分类索引、型号附表等做过若干修订,但对主表词间关系一直未改动,直到1995年编制了词间关系完备的《国防科技工业叙词表》。②1984年版《地质学汉语叙词表(试用版)》、1996年版《地质学汉语叙词表》、1977年版《电子技术汉语主题词表》、1988年版《电子技术叙词表》、2004年版《电子技术叙词表(2003修订版)》、1985年版《国防科学技术叙词表》、1977年版《航空科技资料主题表》、1990年版《航空科技资料主题表》、1988年版《核科学技术叙词表》、2006年版《核科学技术叙词表》、1979年版《机械工程主题词表》、1983年版《化工汉语主题词表》、1996年版《化工汉语叙词表》、1987年版《钢铁工业主题词表(第一版)》、1991年版《钢铁工业主题词表(第二版)》均为非正式出版物。

 

因数据资源有限,笔者仅调查了表1中前11部叙词表的不同版本内容信息[2-10](下文分别简称《电子表》、《地质表》、《国防表》、《航空表》、《机械表》、《汉表-自科》、《化工表》、《水利表》、《钢铁表》、《核表》、《中分表》,余下11部只列出了最后版本信息。),并从整体结构到内部词汇性能做了一些统计分析,最后简要概述我国近30年来叙词表修订情况,以期为今后我国叙词表编制或修订提供参考。

 

2  修订情况统计分析

针对11部不同版本的叙词表,分别从如下几个方面进行定量统计分析。

2.1  词表规模

叙词表的收词量是衡量叙词表的规模和词汇完备性的重要依据[11]。综合性词表收词的学科领域广、收选叙词的等级较小,适用综合性图书馆图书文献标引;专业性词表收选指定的学科领域和相关学科领域的术语,词间等级关系较大,适用于专业性信息服务机构资料文献标引。综合性叙词表收选叙词应具有广泛的通用性;专业性叙词表收词要能涵盖专业学科的知识面,做到均匀、充分,具有适当专指度。不论是综合性叙词表还是专业性叙词表,收词都要遵循文献保证原则和用户保证原则。为了适应新知识领域不断发展的需要,满足用户对文献检索查准、查全的要求,叙词表需要及时收纳反映新技术、新事物的词汇,删除陈旧以及无文献保证的词汇。吐故纳新才能使叙词表有新的活力,适应社会和时代的发展,满足用户的检索需求以及文献的整序。

兰开斯特《情报检索词汇规范化》[12]一书中指出,用于标引和查找的规范化词汇不是静止的,必然要随时补增。表2中,11部叙词表修订版本的词量绝对数量都是增长的。《电子表》和《地质表》经过第1版到第2版的高速增长,第3版增长速度开始下降,与“来兰和马普莱森的词汇增补曲线规律:起初增补较快,之后增补速度开始平缓”[12]的观点相一致。《国防表》自1998年后陆续进行了多次增补、修订,最新版的总词量95479条(数据来源见2.3注,表2中为98年版数据),其持续增长曲线源自其从最初修订原则“覆盖国防科技领域各学科、各专业及其相关专业知识”[3]到电子版要求“编织成一部有完备词间关系、且能网上运行的多专业多学科叙词表”,融合了20多部叙词表的词汇,参考了20多个专业词表的名词术语[13],所以其增长率的14%发展到137%(表2),收词量非常大,仅次于收词量最大的《中分表》。《航空表》1995年版是在《国防表》第3版电子版的数据基础上修订而来,其词量相当。

2  不同版本叙词表收词量及增长率

简称

版次

叙词量(

非叙词词量(

词汇总量(

增长率

电子表

试用本

6500

1000

7500


1

14815

2057

16872

125%

修订版

16872

2414

19286

14%

地质表

试用本

5909

1154

7063


2

8286

1822

10108

43%

3

8572

1938

10510

4%

国防表

1

23239

4742

27981


2

28996

2820

31816

14%

3

52536

22865

75401

137%

航空表

1

4330

199

4529


2

7466

1908

9374

107%

3

63180

32362

95542

919%

机械表

1

11530

1126

12656


2

14285

1395

15680

24%

汉表-自科

试用版

65200

12913

78113


增订本

68823

12375

81198

4%

化工表

1

16602

3075

19677


2

18879

3469

22348

14%

水利表

1

6014

746

6760


2

7456

809

8265

22%

钢铁表

1

11530

1126

12656


2

13869

2140

16009

26%

核表

1

16885

5750

22635


修订版

21326

8739

30065

33%

中分表

1

101376

14690

116066


2

110837

35690

146527

26%

2.2  词表结构

叙词表结构是判断词表质量的重要指标。作为一个规范化词汇的集合,叙词表是按一定的方式展开并且相互补充的部分组成的词汇系统,其组成部分包括宏观结构(主表、附表、辅助索引等)和微观结构(款目词、注释、英文、用Y、代D、属S、分F、参C等)。

2.2.1  宏观结构

一部完善的叙词表的宏观结构包括两个相互补充的组成部分:主表(字顺表)和辅表(范畴表、各种索引、附表等)。我国叙词表的模式基本固定,以《汉语主题词表》为母版:字顺表+范畴表+词族索引+轮排索引+英汉对照索引+附表(见表3),其他专业性叙词表,不论新旧版本,基本上采取这一基础模式,只是根据自身的特点和需求,选择性地编制了辅表。

3中,《电子表》的修订版取消了试用版的词族索引和英汉对照索引;第2版《国防表》取消了词族表,电子版又重新启用,并新增了倒排索引和词间关系表,体现了计算机应用下叙词表展示方式的多样化;《水利表》取消了英汉对照索引;《机械表》修订版本取消了附表;《汉表-自科》修订版本取消了附表,增加了轮排索引;新版《化工表》也取消了附表,同时“范畴分类索引”命名上改成了“范畴词族分类索引”。将该表中范畴索引和词族索引二者合一的独特之处才从字面上体现了出来,其意义在于打破旧的框框,从传统粗略的范畴表引入一个详细的分类索引。然我国叙词语言也应向着分类主题一体化的方向发展,实现词表的结构优化和检索功能的强化。《中分表》就是将分类体系与叙词体系相融合的典范,将传统的宏观结构简化为分类-主题对应表、主题-分类对应表两大部分,其功能大大优化,便于检索,也便于分类标引和主题标引的相互转换。

2.2.2  叙词表微观结构

中文叙词表的微观结构基本模式:款目词+标注项+参照项。本文仅作了款目词参照项的显示方式的统计(见表3)。因为叙词表词间关系显示方式是体现词表编制人员为方便用户使用词表的重要手段,最能体现我国词表编制是随着技术发展而发展的。早期编制的书本型词表受纸介质的限制,只能采用简单的显示方式。如《汉语主题词表》第1版,它采用上位显示法,即某个词族中的任何一级下位词,均显示其族首词,采用“Z”指示。这种显示方式,给用户查词带来极大的困难;后来改用直接上位和最上位显示法,即采用“S”显示某个叙词的直接上位词,再采用“Z”显示其所属词族的族首词。这种显示方式依然不能使用户快速地确定某个叙词在词族中的上下位关系。为克服这些显示方式的缺点,又不使词表的篇幅过大,参照国外词表的显示方式,改用全显示方式,并创造性地在大词族中设立“领词”。将词族表并入字顺表的显示方式,极大的方便了用户查词。其中以1985年编制的《国防表》为代表。到了80年代后期和90年代,随着计算机技术的发展,新编制的叙词表大多采用全显示方式,1990年编制的《军用主题词表》,在国内首次利用计算机辅助编表,采用全显示方式,并且不设立“领词”。《汉语主题词表》(工程技术版)也将采用全显示方式。从以上简述中可以看到,叙词表之词间关系显示方式的变化,更能体现我国叙词表修订的发展历程。

3   不同版本叙词表结构

简称

版次

词表宏观结构

款目显示方式(微观结构)

电子表

试用本

字顺表、范畴索引、词族索引、英汉对照索引

部分显示

1

字顺表、范畴表

全显示

修订版

字顺表、范畴表

全显示

地质表

试用本

字顺表、范畴表、词族表

部分显示

2

字顺表、索引(词族索引、范畴索引、英汉对照索引)、附表

部分显示

3

字顺表、索引(词族索引、范畴索引、英汉对照索引)、附表

部分显示

国防表

1

字顺表、范畴表、词族表、英汉对照表

全显示

2

字顺表、范畴表、英汉索引

全显示

3

字顺表、范畴表、词族表、词间关系表、英汉索引、倒排索引

全显示

航空表

1

字顺表、范畴表

部分显示

2

字顺表、范畴表、主题字顺索引、型号主题词附表、主题族系索引

部分显示

3

字顺主表、范畴索引

全显示

机械表

1

字顺表、范畴索引、词族索引

部分显示

2

字顺表、范畴索引、词族索引、附表

部分显示

汉表-自科

试用本

字顺表、词族索引、范畴索引、英汉对照索引、附表

部分显示

增订本

字顺表、词族索引、范畴索引、英汉对照索引、轮排索引

部分显示

化工表

1

字顺表、范畴分类索引、英汉对照索引、附表

部分显示

2

字顺表、范畴词族分类索引、英汉对照索引

部分显示

水利表

1

字顺表、范畴索引、词族索引、英汉对照索引、附表

部分显示

2

字顺表、范畴索引、词族索引、附表

部分显示

钢铁表

1

字顺表、附表(范畴索引、世界钢铁企业名录)

部分显示

2

字顺表、范畴索引、世界钢铁企业名录

部分显示

核表

1

字顺表、英汉对照索引

全显示

修订版

字顺表、英汉对照索引

全显示

中分表

1

分类号-主题词对应表、主题词-分类号对应表

部分显示

2

分类号-主题词对应表、主题词-分类号对应表

部分显示

 

2.3  词汇性能统计

美国学者兰开斯特提出用等同率、关联比、参照度、清晰度、先组度等几个指标来评价叙词表的性能[12]。为简便起见,笔者只选取较为常用的前三个指标来进行分析。叙词表编制说明中,大多会告知词表的叙词总量和非叙词总量,据此可直接算出等同率。考虑到统计纸版叙词表关联比和参照度的难度,对11部叙词表的不同版本数据,笔者按总页数的5%来抽样统计,测评不同版本叙词表的性能(注:《航空表》1971年纸版没找到,故关联比和参照度未做统计,其第3版和《国防表》的第3版相关数据分别由航空工业信息中心、中国国防科技信息中心的词表管理人员提供,在此表示感谢!)。

2.3.1  词汇等同率

又称入口率,是叙词表中非叙词与叙词的比例,是一项测试入口词丰富程度的指标[11]。等同率高,能够提高词表标引和检索的准确度,一方面使词表易用性更好,便于标引;另一方面能提高检索效率,便于用户查找。等同率反映描述一个事物的集合度,集合度高,检索文献命中率高,意味着词表自然语言化和人性化。国外叙词表的等同率一般在50%-60%以上[14],部分接近或超过1。从图1看,所有新旧版本等同率超过50%的叙词表仅一部,等同率普遍不高。

 

4 不同版本叙词表的等同率

电子表

地质表

国防表

航空表

机械表

汉表-自科

化工表

水利表

钢铁表

核表

中分表

1

15.38%

19.53%

20.41%

4.60%

9.77%

19.81%

18.50%

12.40%

9.77%

34.05%

14.49%

2

13.88%

21.99%

9.73%

25.56%

9.77%

17.98%

18.40%

10.85%

15.43%

40.98%

32.20%

3

14.31%

22.61%

43.52%

51.22%

 

 

不过,从表4中新旧版等同率比较来看,大部分叙词表新版的等同率有所提高,表明编表人员已经开始更多的去考虑用户的方便和检索需求,更多地重视自然语言和规范性语言的结合,增加入口率。随着数据库、网络、通信等技术的发展,叙词表自然语言化趋势越来越明显。《中分表》在修订之初就提出:大量增补入口词,使《中分表》朝与自然语言结合方面迈进[15]。第1版等同率为14.49%,新版等同率为32.20%,增长120%,此为新版《中分表》一大优点。而《汉表-自科》新版就比修订前的等同率要低,可见在修订之前订立叙词表的修订原则和指导思想还是十分重要的。

 1 不同版本叙词表的等同率

2.3.2  关联比

    关联比是叙词表中有参照项(属、分、参)的叙词总量与总叙词量之比[11]。一般来说,描述一个具体文献都是多个词关联着的,用单个词来表达主题的比率非常少,关联比越高,无关联词少,标明叙词表的网络性能越好。对11部叙词表的不同版本关联比进行统计如下(表5):

从表5和图2看,有7部叙词表的新版本比较旧版本的无关联比有所改善,其中《国防表》的关联比比较高,接近1。从统计数据看出,并非所有新版的关联比均比旧版的好,如《电子表》、《地质表》、《核表》、《化工表》4部叙词表词量上有了较大改善,但无关联词也大量存在着,这些无关联词的存在给用户查词、选词造成一定的困难。

5 不同版本叙词表的关联比

电子表

地质表

国防表

航空表

机械表

汉表-自科

化工表

水利表

钢铁表

核表

中分表

1

0.573

0.840

0.835

0.809

0.905

0.870

0.750

0.816

0.997

0.790

2

0.861

0.951

0.949

0.922

0.816

0.896

0.860

0.889

0.916

0.720

0.810

3

0.848

0.813

0.991

0.995

 

2.3.3  参照度

参照度是指叙词表中每个叙词所含属、分、参的平均数。参照度高,词间关系能得到有效揭示,词汇间的相关性就强,从而提供了扩检途径。指引用户查词的途径越多,更加方便的检索文献,描述和反映文献主题的功能越好。笔者通过对11部叙词表数据按总页数的5%进行抽样统计款目词中属、分、参的数量,公式为:属分参照=(属项+分项)/叙词数;相关参照度=参项/叙词总数;总参照度=属分参照+相关参照度,计算结果见表6

6 不同版本叙词表的参照度

简称

版次

属分参照

相关参照度

总参照度

电子表

试用本

2.044

0.391

2.436

1

1.264

0

1.264

修订版

1.585

0

1.585

地质表

试用本

1.283

1.372

2.655

2

1.308

1.964

3.272

3

0.850

1.530

2.380

国防表

1

1.415

0.000

1.415

2

2.004

0.479

2.482

3

0.293

航空表

1

2

1.728

2.368

4.097

3

1.158

0.298

1.456

机械表

1

1.256

无参项

1.256

2

1.755

无参项

1.755

汉表-自科

试用本

2.050

0.228

2.278

增订本

1.828

0.344

2.172

化工表

1

2.029

0.007

2.036

2

2.119

0.003

2.121

水利表

1

1.450

0.376

1.826

2

1.554

0.394

1.948

钢铁表

1

1.710

0.033

1.742

2

1.950

0.059

2.008

核表

1

2.929

1.581

4.509

修订版

3.312

1.822

5.134

中分表

1

1.470

0.440

1.910

2

1.570

0.540

2.110

一般认为理想的参照度值是在2~5之间[11],从表6可知,《核表》的参照度(第14.5,第25.1)还是比较理想的,其他几部叙词表新版参照度普遍也优于旧版,而《电子表》修订版的参照度与试用版相比不是很理想,这与新版大量增加叙词而来不及去完善词间关系有关。建立较高而有效的参照度,增强叙词间语义关系,改善属分参照度和相关参照度,建立完善的语义网络,应成为今后叙词表修订的重点。

 

3  结语

综上所述,发现所有词表在修订后,词量都不断增加,词汇性能大多数优于旧版,组织方式以及显示方式也开始更多地为用户的方便和需求着想。但依然存在一些问题:

1)重编制,轻应用,疏修订。我国叙词表的情况是重视组织编写、品种数量较多,但轻视应用开发、维护修订欠缺。在150多部词表中,只有20余部有修订版,仅占15.3%,百余部词表出版后无人维护,更谈不上花大力气推广应用。

2重词量增加,轻适应性改造,除个别词表着力改进其宏观结构和微观结构,提升其功能外,95%以上的词表只是词汇的增删改。

3)手工维护为主,机器维护较少。我国叙词表的修订,依然离不开人工方式,词间关系建立仍然主要依靠人工判断。

4)所有修订的词表离网络词表还有一段距离,目前也仅有《国防表》、《中分表》电子版实现了网上运行,并且与标引系统相结合使用。

5)我国叙词表的宏观结构还不够简明,在计算机辅助编制环境下,词表结构可以更为灵活。未来词表宏观结构可以考虑字顺表+范畴表+等级索引这三种简而精的体系。可喜的是中国科学技术信息研究所自2009年开始组织了由6所高校和9个科研机构组成的团队对《汉语主题词表》(工程技术版)进行了修订和重新编制,此外NSTL也正在开展十二五国家科技支撑项目《英文超级科技词表》的研究,希望能以此带动我国词表修订和编制工作热潮。

总之,叙词语言的发展不是对其存在和应用价值的否定和摒弃,更不是要重新回到自然语言检索的原始时代,而是应该充分利用现代化的计算机技术、网络技术及其软件平台,进行叙词表的组织编写、更新管理,有效地利用词表进行自动标引、数据整合、用户检索,并加快叙词表的推广利用。

 

参考文献

1  鲍秀林,吴雯娜.中文叙词表发展概况和性能测评(1980-2009) J.图书馆论坛,20124):101-106

2  史静,刘素芳,刘振锋.地质学汉语叙词表[M.北京:地质出版社,2010

3  《国防科学技术叙词表》编制组.国防科学技术叙词表(1991年版)[M.北京:军事科学出版社,1991

4  《机械工程叙词表》编制组.机械工程叙词表[M.北京:机械工业出版社,1990

5  水利电力部科学技术情报研究所.水利水电科学技术主题词典[M.北京:科学普及出版社,1987

6  水利部信息研究所.水利水电科技主题词表[M.郑州:黄河水利出版社,1998

7  《中国图书馆图书分类法》编委会.中国分类主题词表(第一版)[M.北京:北京华艺出版社,1994

8  国家图书馆《中国图书馆分类法》编辑委员会.中国分类主题词表(第二版)[M.北京:北京图书馆出版社,2005

9  中国科学技术情报研究所,北京图书馆.汉语主题词表[M.北京:科学技术文献出版社,1979

10  中国科学技术情报研究所《汉语主题词表》自然科学部分维护组.汉语主题词表自然科学增订版[M.北京:科学技术文献出版社,1991

11  马张华,侯汉清,薛春香编著.文献分类法主题词法导论(修订版)M.北京:国家图书馆出版社,2009119-120122-12,134

12  F.W.兰开斯特著;杨劲夫.情报检索词汇规范化[M.北京:科学技术文献出版社,1982:111

13  龚昌明.电子版《国防科学技术叙词表》编制技术[J.情报理论与实践.19992:123-126

14  侯汉清,徐佳.国外叙词表的概括及发展趋势[J.情报学报,1989(5):378-386361

15  卜书庆,陈树年.《中国分类主题词表》修订的整体构想[J.中国图书馆学报,20006):13-16

 

鲍秀林  女,1982年生,本科,发表论文2篇。

吴雯娜  女,1973年生,副研究馆员,主要研究方向为知识组织,发表论文20多篇,参编著作3部。