叙词表词间关系处理规则的比较研究
――以国际、中国、美国标准为例
宿瑞芳 李晓雯 侯汉清
(南京农业大学信息管理系 210095)
摘 要 叙词表中词间关系分为等同关系(EquivalenceRelationship)、等级关系(HierarchicalRelationship)和相关关系(AssociativeRelationship),词间关系的控制是叙词表编制的关键技术,文章主要针对叙词表词间的等级关系和相关关系,比较国际标准ISO 2788、中国标准GB13190-91以及美国标准NISO Z39.19-2005对其的规定,分析异同,总结联系,从三个标准的实用性、检索效率等方面予以分析,并为中国叙词表编制标准提出改进建议。
关键词 叙词表编制 词汇控制 等级关系 相关关系 技术标准
叙词表是特定学科领域内表达事物概念的词汇集合;是通过各种方式对叙词之间的各种语义联系进行控制和显示的词汇系统;是可以随着使用的需要不断补充、完善和调整的动态词典。自然语言经过特定的筛选后,便得到了大量适合标引的叙词。对叙词表中的词汇进行适当规范后词表仍是杂乱的,相邻叙词之间也未必具有一定的联系。为了使叙词的安排更加系统化,用户检索效率更高,就必须对叙词之间、叙词与非叙词之间的关系进行处理,通过词汇组织使词汇结成一个概念语义网。
叙词表中词间基本关系分为等同关系(EquivalenceRelationship)、等级关系(HierarchicalRelationship)和相关关系(AssociativeRelationship),国际标准(ISO 2788)、中国标准(GB 13190-91)、美国标准(NISO Z39.19-2005)对这三种关系均进行了界定与规范,其中在很多方面三个标准均达成了共识,在细节方面三个标准间也存在差异,以下就词间关系中的等级关系和相关关系分别进行分析。
1 等级关系处理规则的比较研究
1.1 各标准对等级关系类型的划分及判定
等级关系也称属分关系,它是系统化的词表区别于非系统化词表的标志之一。它主要是借助上位叙词、下位叙词的划分、归类,对词表进行组织,服务于扩检和缩检。
1.1.1 从等级关系划分的类型来分析,可以看出国际标准与美国标准均划分为三类,即属种关系、整体部分关系以及例举型关系。而中国国家标准不同于两者,规定等级关系主要是属种关系,一般情况下,整体部分关系不囊括在等级关系中,但是在某些特定情况下,整体部分关系也可被破例列入等级关系中(1.2将详细阐述),此外,中国国家标准也并未划分出例举型关系。在国际标准与美国标准中,例举型关系用来反映表示事物的一般名词与表达特例或举例时用的专有名词之间的联系,例如:
医学家 ――― 一般名词
张仲景
华佗
在中国国家标准中,专有名词常常被排除到字顺主表之外,这样做有利于缩减词表中的叙词数量,在叙词表的附表中集中了特定学科的大量的专有名词,《汉表》就将一些具有通用性的专有名词从主表中析出,收入附表,《汉表》的四个附表分别收录了世界各国政区名称、自然地理区域名称、组织机构及人物名称,这样的分离处理有利于标引与检索,也减少了词汇冗余。在对专有名词的处理上,各标准处理的侧重点不同,各有所长。
1.1.2 但在判定属种关系方面,国际标准、中国标准、美国标准则采用了相同的“全部是”、“部分是”判别式来验证词与词是否属此种关系。判别式如下:
服装
T恤
凡符合该类判别式逻辑检验的,即归入属种关系,否则不能构成属种关系,如:
药材
芦荟
显然“药材”与“芦荟”不符合该判别式,可见它们之间不是一种包含与被包含的关系,也就不构成属种关系。
这个判别式为判断词与词间是否属于属种关系提供了界定标准,明确直观地反映了词间的概念包含关系。
1.2 各标准关于整部关系的处理规则
在整部关系的界定上,三个标准均没有特定的判别式加以验证,且在约束上各标准也有一些不同。在国际标准与中国国家标准中,这种关系仅用在特定情况下,有限场合中。在中国国家标准中,规定了满足整部关系的三种类型,即:
●表示行政区域、地理区域的词,如:南京 S 江苏
●表示人体、生物体的系统与器官的词,如:支气管 S 呼吸系统
●表示某些行政与社群结构的词,如:军 F 师
国际标准在划分时将学科分支或专业领域也列入其中,如:科学 F 生物学
同时,国际标准也允许部分词在有限的主题领域的词表中,以此关系来组成词族。而相较约束严格的国际标准与中国国家标准,美国标准则更为开放,它对整部关系的限定较少,只要叙词间关系本质上是整体部分关系,即不予以限制,均可归入属分关系。由于用户在检索的时候不会太关注词表对整体部分关系的限定,检索较主观,显而易见,美国标准的创新较国际标准与中国国家标准更符合也更顺应检索需求。
1.3 缩写符号的比较
1.3.1在国际标准与美国标准中,为了更好地体现属种关系与整部关系,引入了更为具体的缩写符号BTP/NTP、BTG/NTG,在必要的时候可以利用其对词间关系进行更细致的划分,(见表1)。
中国标准在缩写符号方面并未进行细分,只是作了等级关系的划分。
1.3.2 有些概念从逻辑上可以同时隶属于几个族系,即具有多重等级族关系,国际标准、中国标准及美国标准均采用了多等级关系,多等级关系的引入避免了对词的归属问题的争论,在显示上,中国标准仅作了多重等级关系的反映,而美国标准同国际标准在处理多等级关系时运用了具体的缩写符号。如图1所示:
表1 叙词表词间关系表示的缩写符号表
叙词 | 关系代码 | 描述 | 对应叙词 |
房屋 | NTG | 下位词(属种关系) | 平房 楼房 |
房屋 | NTP | 下位词(整部关系) | 天花板 地板 屋顶 |
建筑师 | NTI | 下位词(例举关系) | 贝聿铭 |
平房 | BTG | 上位词(属种关系) | 房屋 |
楼房 |
天花板 | BTP | 下位词(整部关系) | 房屋 |
地板 |
屋顶 |
贝聿铭 | BTI | 上位词(例举关系) | 建筑师 |
骨骼头颅骨
图1 (引自美国标准NISO Z39.19-2005)
中国标准可借鉴美国标准与国际标准的做法,以便更好地诠释属种关系与整部关系。
2 相关关系处理规则的比较研究
2.1 对相关关系的定义和范围的讨论
相关关系很难定义,有趣的是三个标准都用排除法对相关关系进行定义的:即相关关系包括词与词之间既非等同关系又非上下位词的等级关系,而这些词在语义上或使用中有密切的关系,它们在标引或检索时是可供选用的。
不同的是国际标准和美国国家标准将可以使用相关关系联系的词分为两类:属于同一范畴的词和属于不同范畴的词。我国国家标准没有做这样的明确划分。
2.2 属于同一范畴的词建立相关关系
2.2.1 含义有部分重叠的同属词。
boats(船只)
BT Vehicles(交通工具)
RT ships(轮船)
ships(轮船)
BT vehicles(交通工具)
RT boats(船只)
“ships”(轮船)与“boats”(船只)各有精确定义但不形成同义关系,然而有时它们可以自由地替换使用,因此用户在用一词查找文献时应该联想或记起另一个词。
2.2.2 不是所有的同属词都要使用这种联系方式。例如:类似“horses(马)”与donkeys(驴)两词就不必要关联,尽管都是拥有同一个上位词“equines”(马属),但含义并没有任何重叠。
2.2.3 由同种或同种变异关系(即概念系由另一概念衍生)联系的概念也需建立相关关系。“hinnies”(��)与“mules”(骡)属于此种类型。如图2所示:
“hinnies”(��)与“mules”(骡)有共同的广义词马属并且它们都是“horses”(马)及“donkeys”(驴)的种间杂交品,所以它们之间应建立相关关系,同时,“mules”(骡)和“hinnies”(��)还要分别与“donkeys”(驴)和“horses”(马)建立相关关系,而“donkeys”(驴)和“horses”(马)既不是同种也不是同种变异,也就不需要建立相关关系。具体参照关系如下:
equines(马属)
donkeys(驴) mules(骡) hinnies(��) horses(马)
图 2
hinnies(��) C horses (马);
hinnies(��)Cdonkeys(驴);
mules (骡)Chorses (马);
mules (骡) C donkeys (驴);
hinnies(��) C mules (骡);
相关关系是一种非等级关系,按理说他不应该用来联系同一族系中的词汇,而国际标准和美国国家标准却将其联系起来,从理论上讲这样做有点累赘,这种关系完全可以用共同的BT关系来表达。
2.3 属于不同范畴的词建立相关关系
表2 不同范畴叙词的相关关系处理规则的异同
标准 | 美国国家标准 | 国际标准 | 我国标准 |
不 同 点 | 概念或物体与来源以及产品与原材料 | 概念与来源 | 概念与来源 |
过程与其施行者 | 过程与所用工具 | 事物与其研究手段、方法的概念 |
学科或研究领域与其研究对象或研究者 | 学科或研究领域与其研究对象 | 无 |
事物与其性质以及行为与其性质 | 事物与其性质 | 无 |
概念或事物与其单位或测量装置 | 概念与其计量单位 | 无 |
行为与其结果或受体 | 行为与其结果或受体 | 无 |
同畴短语与其置入的名词 | 同畴短语与其置入的名词 | 无 |
无 | 无 | 相渗透的学科;过程、原理类似的概念;形式与内容的概念;数量与质量的概念;事物整体与其部分 |
相同点 | 原因与其结果;事物与其对立物 |
从表2的比较可以看出,三个标准互有差异,但总体来说,美国国家标准最为详细具体。
3 对中国标准词间关系显示方面的修订意见
3.1 细分等级关系的缩写符号
从表1我们可以很清楚地看到缩写符号具体化的优势,中国国家标准只是进行了等级关系的划分,对划分类型则未予以细分。我们可以设计一套新的缩写符号以使词间关系的表示更明了更具体(见表3)。
表3 中国词表词间关系表示的缩写符号表
缩写符号 | 描述 |
Ss | 属项(属种关系) |
Fs | 分项(属种关系) |
Sz | 属项(整部关系) |
Fz | 分项(整部关系) |
Sl | 属项(例举关系) |
Fl | 分项(例举关系) |
3.2 适当放松对相关关系范围的约束
通过表2的比较,可以看出美国国家标准对相关关系的限定较宽,中国国家标准也可以有选择的借鉴美国国家标准和国际标准,并根据具体情况做出相应改进,如可将下列情况也判定为相关关系。
●学科或研究领域与其对象之间。例如:
美学 C 美
●具有影响关系的叙词之间。例如:
天津条约(1858)C 第二次鸦片战争(1856-1860)
●各种事物与材料、性质的叙词之间。例如:
橡胶 C 弹性
●事物与其应用关系的叙词之间。例如:
粘合剂 C 粘合
3.3 插入分面标头完善词间关系的显示
国际标准与美国标准在叙词表的分类部分插入一种“虚拟词”――分面标头,用以指示划分范畴的逻辑基础,有时也称“分面指示符”,这些词并不用作标引词。分面标头有两种类型,一种是用于指明等级族组织的逻辑基础的分面标头,一种是用于导入不同类型概念的分面标头。其中前者是用于处理具有等级关系的叙词。如:
玩具
NT(按材料分)
布料玩具
金属玩具
塑料玩具
橡胶玩具
本质玩具
(按年龄组分)
成人玩具
儿童玩具
婴儿玩具
在此例中,“按材料分”与“按年龄组分”作分面标头,其后的词的上位词均为“玩具”。
分面标头的后一类型用于处理具有相关关系的叙词。
如:
图书
RT(按操作分)
装订
印刷
这里的“按操作分”为分面标头,“图书”通过分面标头导入与之相关的词。可以看出这种分面标头的作用是保证从用户的方便性出发将概念集中于通常与之相关联的概念之下。
国际标准与美国标准中分面标头的使用为标引人员及用户提供了很大的方便,中国国家标准在这方面规定得则较为粗略。有时分面标头是不必要的,而对于很大的词族,根据划分标准排列下位词则是很有必要的。中国标准可适当引入分面标头以更好地服务、引导用户。
3.4 引入自定义等级关系
一个好的词表不应限制检索需求,不应成为知识延伸的桎梏,而是应尽可能地顺应检索及知识扩展的工具。如果在检索时总是被框在一个定好的模式里,那么反而会起反作用。在基本的前提下,为标引与检索提供更大的方便,提高效率,才应是词表设计中关系控制应遵循的原则。
目前,由Multisystems公司推出的叙词表编制软件Multites 2005 pro中允许用户自定义词间关系、范畴等等,大大增加了叙词表的自由度,同时这也为我们提供了一种新的词汇控制思想(见表4)。
表4 文学词表中自定义的等级关系
关系代码 | 描 述 | 对应关系 | 关系类型 | 备 注 |
CBT | 按所属国家划分(上位词) | CNT | 等级 | C 代表 Country |
CNT | 按所属国家划分(下位词) | CBT | 等级 | C代表Country |
SBT | 按文学类型划分(上位词) | SNT | 等级 | S代表Sort |
SNT | 按文学类型划分(下位词) | SBT | 等级 | S代表Sort |
PBT | 代表人物(上位词) | PNT | 等级 | P代表Person |
PNT | 代表人物(下位词) | PBT | 等级 | P代表Person |
WBT | 代表作品(上位词) | WNT | 等级 | W代表Work |
WNT | 代表作品(下位词) | WBT | 等级 | W代表Work |
文学
CNT 中国文学(按所属国家划分)
外国文学
SNT 诗歌(按文学类型划分)
散文
杂文
小说
余光中
BT 诗人
WNT 乡愁(代表作品)
天问
等你在雨中
属项可以从不同角度进行划分,在一些特定词表中,这样做有利于主题概念的分面组织和显示,在一些大型词表中,可以做同样的尝试,从而使得对词间关系的控制及显示自由且灵活,表征更直观更多样化。
4 结语
综上所述,国际标准、中国国家标准及美国标准在词间关系的约束上有相似之处也各有特色。在等级关系上,中国国家标准应尽量完善其附表;同时借鉴Multites 2005 pro的新的词汇控制思想以更好的表征等级关系。在相关关系上,可借鉴国际及美国标准放宽对相关关系的约束,以方便用户检索。在等级及相关关系的显示上,中国国家标准可根据具体词表、具体情况加入更细致的缩写符号与分面标头;中国国家标准可根据我国语言的特点和需要综合考虑,适当地借鉴美国的开放式标准,在尊重学科、尊重叙词主题本质的基础上,适当扩大其适用范围。尽可能使规则更加规范,使词表的编制简单易行,以便编制出更加规范的便于使用的词表。
参考文献
1 ANSI/NISO Z39.19-2005.Guidelines for theConstruction, Format, and Management of Monolingual ControlledVocabularies, NISO Press, Bethesda,Maryland, U.S.A, 2005:45-57
2 马张华,侯汉清.文献分类法主题导论. 北京:北京图书馆出版社,1999:129-135
3 国际标准化组织(ISO).文献与情报工作国际标准汇编.北京:科学技术文献出版社.1992:262-272
4 肖燕.信息揭示原理与方法.济南:山东大学出版社.1997.5
5 侯汉清,戴维民,陆宝树,译.F.W.lancaster.情报检索词汇控制.上海:同济大学出版社,1992:17-25
宿瑞芳 女,1985年生,南京农业大学信息管理系信息管理与信息系统专业本科生。
李晓雯 女,1986年生,南京农业大学信息管理系信息管理与信息系统专业本科生。
侯汉清 男,南京农业大学信息管理系教授,博导,中国索引学会副理事长。