ANSI/NISO和受控词汇新标准 胡钺芳 陈寅涛 编译
发布时间:2018-09-25  浏览次数:56

・索引语言(情报检索语言)研究・

ANSI/NISO和受控词汇新标准

胡钺芳  陈寅涛 编译

(复旦大学图书馆  上海 200433)

    NISO是美国国家标准信息协会的英语缩写,是美国国家标准学会(ANSI)命名的一个非赢利机构,在当今不断变化,以及越来越普及的数字化环境中,进行鉴定、开发、维护和发布管理信息的技术标准化工作。NISO的标准把各种传统和新型的技术全面地应用在同信息有关的需求上,包括检索、重新策划、存储、元数据、保存。

NISO成立于1939年,1983年注册成为非赢利教育机构,1984年至今就一直采用现有名字,并从它所服务的行业中获得大力支持。在出版界、图书馆领域、信息技术业、媒体行业中有70多个机构和协会的领导人是其有投票选举权的成员。数以百计的专家和学者在NISO的各委员会里任职,不少人还担任协会的负责人。

NISO长期以来主持尖端项目标准的发布,以及主办具有探索意义的新兴专题讨论会。这些讨论经常会促使一个或若干个新委员会诞生,同时,新标准的研讨、开发、认证和发布工作在这些新诞生委员会的主持下进行。

NISO认识到标准必须反映全球需求。ANSI指派NISO把美国关注的有关标准或标准化的事宜向国际标准组织(ISO)的信息和文献技术委员会陈述。NISO对自己有精确的定位,把总部分布在各地的有关各方组织在一起,从事标准或标准化的各项工作。

美国国家标准学会在1974年首次发布词汇汇编结构、编制和使用,并于1980年进行修订,而且在1993年发布了题名为ANSI/NISOZ39.19单语种词汇汇编编制、格式和管理准则的第二次修订。1993年的第二次修订利用了国际标准组织的2788标准和英国标准8723。虽然在1993年已对标准作了一次修订,但是自从上次修订至今信息领域却发生了翻天覆地的变化,这些变化源于计算机信息技术的飞速的发展,以及全球互联网的广泛使用。当前信息数据库在商贸、行政、教育等领域的应用日益增加,同时在互联网上查询各种网站的需求也日益高涨,这就表明各种受控词汇在数据库的使用和互联网的检索中,可以给用户在处理浩如烟海的内容方面提供更好、更便捷的方法,同时也在获得所需的信息方面提供了方便。ANSI/NISOZ39.19问世后的30年间,一直是NISO网站上下载最频繁的、下载量最大的标准。这个标准在信息领域中所表现出的重要性是不言而喻的。Z39.19是作为专业受控词汇的结构、格式和维护指南的原始来源。

1  背景

标准的第一版发表于1974年,由隶属图书馆文献及相关出版机构的美国国家标准委员会Z39词汇汇编规则和规范标准化分委员会制订(后来被称之为图书馆和信息科学及相关出版机构)。该分委员会在很大程度上参照并利用由工程师联合委员会、联邦科学技术联合会的科学和技术信息委员会以及联合国教科文组织开发的标准。

Z39.19问世伊始,从词汇汇编中选出的词汇在编制收藏不同文献时被普遍使用。这些文献可能是印刷资源,如报刊文章、技术报告、新闻报道。由于新型的信息存储和检索系统的问世,“文献”的概念也已延伸,其中包括专利、化学结构、地图、乐谱、录像带、博物馆艺术展品,以及许多其他非传统类型的文献资料。此外,描述表达的方法几乎还都是用于各种不同的印刷文献。在当今联机的世界里,必须对其他的编制和表达加以考虑。1993年对标准进行了重新审阅和重新确认。然而,这次审阅明确:为了保证标准适应飞速发展的电子信息环境,必须对其进行更新,因此,为了适应新的形势,满足新的需求,有必要对标准进一步的审阅、研究。NISO在1999年11月4日―5日组织了一个主题为电子词汇汇编的全国性专题讨论会,旨在调查开发电子词汇汇编的可取性和可行性。专题会议由美国心理学协会(APA),美国索引学会(ASI),以及美国图书馆协会的分支机构图书馆藏书和技术服务部联合举办。目前修订Z39.19标准是专题讨论会上与会者取得一致共识、进行推荐后共同提出的。在NISO的网站上能够获取1999年11月4日到5日召开的电子词汇汇编专题讨论会的报告。网址:http://www.niso.org/news/events_workshops/thes99rpt.html

这次专题讨论会认定现在的标准有不少局限:

(1) 非词汇编纂者很难理解。许多潜在的用户都表示对标准有兴趣,由于缺乏图书馆学和相关学科的背景,因此他们中间有许多人即使认识到需要把标准中的概念应用到他们的专业上或工作上,却发现很难做到;

(2) 标准把重点集中在结构和维护上,并采用信息科学的基础原理知识,这种知识只能促进受控词汇的使用;

(3) 对文献索引编制的使用相当有限。虽然最初受控词汇中的语义是用于编制文献索引和文献检索的,但是后来标准在把基础原理应用于许多不同类型的资料上,包括网站,却非常理想;

(4) 标准在后组式检索中也有限。标准假设受控词汇在其范围内在后组式检索系统中使用,这种假设限制它对其他检索形式的适用性,包括浏览和导航系统;

(5) 标准在印刷资料使用时也有局限。用于所推荐的受控词汇的显示格式仅仅包括受控词汇的印刷描述,由于标准最初问世时离现在有些年代(上一次修订还是在1993年),因此实际上,那时还没有受控词汇在支持网络的环境中使用;

(6) 标准使用过时的技术。虽然最初制定的标准所表达的原理依然切题,但是许多实例还是在过时技术的基础上提供的。这就需要更新标准,使标准满足当代用户的需求。

NISO依靠从业内以及众多专题讨论会所反馈的讨论意见,发起修订Z39.19的倡议。这次修订工作由于得到H.W.威尔逊公司、盖特基金会和国家医学图书馆的无私支持,所以极有可能获得成功。NISO在能够取得结果的目标内,以及在明确主要利益共享的参与者以后,成立一个咨询团来指导修订工作。这个词汇汇编咨询团,缩略形式TAG已为大家所熟知,包括信息行业的许多机构,其中有微软公司、美国国防部、国会图书馆、盖特基金会、美国图书馆协会、化学摘要学会、H.W.威尔逊公司、国家医学图书馆、OCLC、专业图书馆协会,等等。

2  NISO对于修订Z39.19标准的目标

NISO在2003年2月进行了一次调查,获悉了更多有关Z39.19如何使用的信息。调查结果表明调查对象希望在修订时做出一些改进:

(1) 修订后的标准应提供一个更好的、应用范围更广的方法来表达内容,也就是标准可在更广泛的范围内,对各种资源进行大规模的使用,而不仅仅局限于各种文献资料;

(2) 修订必须在考虑不断变化的用户的同时,还要考虑到各种各样的信息获取环境;

(3) 由于使用受控词汇的信息资源一直在增加,因此可互操作性和共享互换使用的需求也在增加。

3  修订范围

对于如何修订标准,咨询团讨论了几种方法。这些方法都能扩大和改变标准范围,也能满足用户不断变化的需要。

(1) 扩大原有的词汇汇编和受控词汇的范围,这种范围的变化反映了要使标准更适用于受控词汇的要求,而不是仅仅适用于制作不同摘要和编制索引的受控词汇,这些受控词汇曾被各类机构非常广泛地使用过。修订题为受控词汇的结构、格式和维护准则;

(2) 使标准能更加容易被用户所理解和应用。最初的标准由词汇的编纂者开发而成,是为词汇编纂者的同行使用。标准假设用户熟悉词汇控制的基本概念和原则,但真实情况不再如此,由于使用标准用户大大增加,这就导致从NISO网站上下载标准需求也越趋频繁;

(3) 解释重要概念。因为许多标准的潜在用户没有任何图书馆学和信息学科的背景,所以解释主要的概念是至关重要的。这样会使用户更加理解规则和准则背后的精髓所在;

(4)解释受控词汇的编制原则。同上所述,许多使用标准的新用户不熟悉词汇控制的基本原则,所以不能使用过于技术性的语言来解释其原则概念就显得十分重要。此外还得向他们提供恰到好处的实例来阐明所表达的要点;

(5) 包括电子信息环境。在最初提出Z39.19时,几乎得不到任何形式的电子信息。30年后许多有实质内容的资源能以电子形式获取,而且许多受控词汇也能以电子形式获取。因此,修订必须包括用于印刷型、电子及支持网络显示格式的信息;

(6) 包括用户检索的附加方法。1993年的标准修订假设主要检索模式是用布尔运算符的后组式检索。在当代信息环境中,标准也必须提供适用于浏览和导航,以及使用关键词检索的受控词汇;

(7)扩大制作摘要和编制索引以外的使用功能。由于信息产业不断壮大和成熟,除编写摘要和编制索引外,其他领域使用者认识到受控词汇固有的形式体系和学科分类对他们的领域也许是有用的;

(8) 包括网络使用。由于信息资源及管理工具势不可挡地朝互联网发展,在受控词汇和目标数据库的修订范围中绝对有必要包括实现网络应用。

4  扩大标准的覆盖范围

对于现在正在进行的修订来说,“文献”这个概念已被使用的“内容客体”扩大了。内容客体是任何形式的信息运载实体,事实上,这个实体能够存在于有形的和电子的形式中。内容客体可以包含在数据库中、档案库中、或其他信息存储处,或者它们本身,这是因为可能它们也仅仅是互联网上的一个或多个网站。另外描述内容客体的元数据本身也是内容客体。

5  扩大标准受控词汇类型

同理,对于这次修订词汇汇编的概念在扩大,包括其他类型的受控词汇,如列表、同义词环、以及分类。这些都是汇编的子类。这是因为它们已经具有词汇汇编的一些特征(但不是所有的)。

*列表仅仅包括首选词汇;

*同义词环仅仅包括有相等意义的词汇;

*分类仅仅包括具有相关分层的首选词汇;

*词汇汇编具有所有这些特征外,还具有另外一些相关类型的特征。

6  列表

列表仅仅是一组词汇,所有的都是首选词汇。从词义相近的同义词中间选择一个受控词汇作为首选词汇。例如,在包括Extra large这词的列表中,首选词汇可以选中Extra large(特大),而不是XL这样的缩略形式。如:Alabama(阿拉巴马);Alaska(阿拉斯加);Arkansas(阿肯色);California(加利福尼亚);Colorado(科罗拉多)……


列表经常在网站的检选表中和下拉式菜单中使用。包括在列表中的词汇虽然也有使用其他逻辑顺序排列(如小,中,大),但是一般以英语字母表顺序排列。

Z39.19的修订工作而言,不允许存在一种列表嵌入到另一种列表中的可能性。这种原则就意味:在几种列表中不具有一种结构。

7  同义词环

同义词环是同义词列表或近义词列表,用于以检索为目的,可交替使用的列表。如:Speech disorder(语言表达混乱);Speech defects(语言表达缺陷);Speech,disorder of(混乱的语言表达);Defectivespeech(有缺陷的语言表达)等。

同义词环经常用于加强系统检索,在这些检索中内容没有编制成索引,或者编制索引词汇没有受控。

同义词环从全文本内同时出现的词汇群中自动产生,或者由主题词专家开发而成。同义词环不同于编制的索引,仅仅用来检索。因此首选词不是被指定的。在同义词环中的词汇对索引而言具有同样重要的意义。

8  分类

分类是一组首选词汇,全部由一个层次或多个层次连结而成。分类中的每一个词汇至少属于一种结构,也可能属于多个结构。在这种情况下,这种结构称为多层次。如:Chemistry(化学);Organic chemistry(有机化学);Polymer chemistry(高分子化学或高聚物)等。

分类广泛应用于分类实践,以及网络导航系统。

9  词汇汇编

词汇汇编是具有多种相关类型的受控词汇。允许在词汇汇编中存在的相关类型,在一般情况下,在编制完成时就已经规定。然而,其他类型的相关表达,按需要可随时进行增补。举例:Rice(稻);UF Paddy(稻谷);BT Cereals(谷类);BT Plant products(植物结出的果实);NTBrown rice(糙米);RT Rice straw(稻草)等。

缩略表达解释:UF=Used for(曾用于);BT=Broaderterm(广义词汇);NT=Narrower term(狭义词汇);RT=Related term(相关词汇);bold type face(粗体字)=apreferred term(首选词汇)

注意:不同的显示方法的表达用来表示词汇中相关分级词汇的层次。在上述实例中,首行缩排用来表明谷类(cereals)比稻(rice)具有更广泛的含义,可以说是稻的上位类,而植物结出的果实(plant products)比谷类(cereals)含义更加广泛,也可以说是谷类的上位类。

三种相关词汇允许出现在词汇汇编中。它们是:

*等义(例如使用/用于)―表示首选词汇。

*分级―表示有广义和狭义相关含义的词汇。

*关联―表明在词汇中相关的其他类型。

词汇汇编通常包括所有以英语字母顺序排列的词汇和词组,同时还包括每种词汇(等义、分级和关联)3种相关类型。除了以字母顺序排列外,这些格式对于词汇汇编也表明词汇作树状的分级排列,或者以其他形式的分级排列。这些分级排列格式对于词汇汇编来说是极其必要的,不但可区别于其他形式,而且更加简化了受控词汇,例如可选列表,同义词环和分类,其中词汇汇编具有最强大的功能和最复杂的结构。

10  标准的显示格式

修订后的标准应能够使受控词汇以电子格式,以及在网络环境中进行使用,允许用户在选择词汇的实践中更具有灵活性。当今支持网络使用的受控词汇利用了导航工具,如关键词检索、浏览,及超级琏接。增加显示类型和专业信息,例如,范围注释、历史注释、树形结构等等。艺术和建筑词汇汇编由盖逖研究所开发(网址:http://www.getty.edu/research/conducting_research/vocabularies/aat/),就表示有许多这样类型的琏接。由国家医学图书馆提供的MeSH浏览器http://www.nlm.nih.gov/mesh/MBrowser.html是另一个范例。

11  标准的可互操作性

由于信息资源数量的飞速增加,另外用来编制这些资源的受控词汇也在不断扩大,因此对能够跨数据库和跨系统检索工具的需求也越显迫切。然而,还没有这些问题的通解方法。在修订标准时,也已认识到诸如此类的问题,因此,受控词汇的编纂者和用户也肯定明白此类潜在的问题。在这种情况下,一个具有可互操作性的特例,还有涉及到用多种语言编制索引和用多种语言检索内容,以及涉及到开发和维护多种语言的受控词汇的一些情况,也都在修订中进行阐述。

如上所述,这次修订的题目为“受控词汇的结构、格式和维护准则”,对于单语种词汇来说是没有限制的。同时,修订也考虑到对使用多语种受控词汇而引起的特殊需求。

ANSI/NISO Z39.19通过修订后,更具有实用性,更加适应飞速发展网络环境的需要,使单语种或多语种用户使用时更加方便,更加得心应手。

(编译自《The Indexer》Vol.24 no262-65页)


胡钺芳  复旦大学图书馆馆员。

陈寅涛  复旦大学图书馆副研究馆员。