黄页检索语言探索吧 周毅俊
发布时间:2018-09-25  浏览次数:9

黄页检索语言探索

周 毅 俊

(中国电信集团黄页信息有限公司  上海 200080)

        通过对情报检索语言的研究,探讨一种与黄页相适合的检索语言,并探寻目前黄页检索中的不足及其解决途径。由于黄页产品的多样性,在检索语言的选择上可能不是单一的。

关键词  黄页  检索语言

    黄页作为一个信息的媒体,给予人们的信息量是巨大的。要在一个数据量巨大的信息库中寻找到自己需要的信息,需要一个科学的检索方法以帮助人们能够快速、准确地找到信息。情报检索语言就是根据人们对信息检索的需要而创造的人工语言,又称为检索语言。目前世界上有成千种情报检索语言,例如,《中国图书馆分类法》、《汉语主题词表》、《国际主题词表》、《NASA叙词表》等等。虽然有如此多的检索语言,其实他们的基本原理是一致的,只是它们在表达各种概念及其相互关系时和解决对它们提出的要求时所采用的方法不同,因而形成了不同的类型和语种。

情报检索语言按其结构原理,可分为分类语言、描述语言和代码语言三大类型。下面简单介绍一下这三种类型的语言。

分类语言用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。分类语言包括等级体系分类语言(体系分类法)和分析-综合分类语言(组配分类法)。它们统称为分类法系统。

体系分类法是一种直接体现知识分类的等级制概念标识系统。它是对信息内容的概括及某些外表特征的概念进行逻辑分类(划分和概括)和系统排列构成的。体系分类法的主要特点是按学科、专业集中信息,并从知识分类角度揭示各类信息在内容上的区别和联系,提供一种检索的途径。体系分类法采用的是对事物概念进行层层划分、层层隶属的方法来形成一系列专指的分类标识,并构成一个具有隶属、并列关系的秩序井然的概念等级体系,来达到对信息内容进行分类的目的。但是,体系分类法的类目是列举式的,而要详尽无遗地列举一切事物概念事实上是不可能的,对于这个问题,在下面说到的组配分类法中会谈到解决的方法。目前在黄页系统中使用的分类表就是属于体系分类法的一种。对于黄页来说,该分类法能按专业集中地、系统地揭示企业性质,可使使用者“一览全貌”,“触类旁通”,这对于使用者系统地搜索和利用一个专业范围的信息来说,是很方便和有效的,而且检全率也很高。但是,现代企业从事产品的多元化和产品之间互相渗透和综合,使得越来越难以充分地、合乎客观实际地反映多维性的企业性质。这使得对一些企业的专业范围很难界定,对黄页来说体系分类法的检准率面临着非常大的挑战。

组配分类法的构成基于概念的可分析性和可综合性。即一个复杂的概念可分析为若干简单概念,若干简单概念可以综合为一个复杂概念。因此,一个复杂的主题概念可以用若干个表达简单概念的组配来表达。组配分类法是体系分类法的发展。创制组配分类法的目的,主要是为了克服体系分类法的列类方法所造成的不能无限容纳概念的局限性。由于组配分类法中的组配过程是在检索时动态进行的,对于纸质号簿来说并不适用,对于电子类的黄页产品可以考虑使用,但由于组配的逻辑非常复杂,对于检准率方面有欠缺。

描述语言用词语来表达各种概念,将各种概念不管其相互关系完全按字顺排列。描述语言包括标题词标引语言(标题法)、单元词描述语言(单元词法)、叙词描述语言(叙词法)和关键词描述语言(关键词法)等。它们可统称为主题法系统。标题法的检索标识是在编表时就固定组配好的,即所谓“先组式”的;单元词法和叙词法的检索标识一般是在检索时才组配起来,即所谓“后组式”的。标题法、单元词法和叙词法都要对取自自然语言的词语加以规范化,而关键词法一般认为是直接使用自然语言不加规范,其实它也要进行某种程度的规范化处理,被称为后控词库(后面相关内容中会提及)。标题法、单元法和叙词法在表达各种概念及其相互关系的方法上各有特点,但许多方法是通用的。所以,要在它们之间划一个明确的界限比较困难。事实上,目前分类法系统和主题法系统也互相渗透,各种方法互相采用。我们的黄页分类也采用了以体系分类法为主、穿插使用主题词法的方式,例如在黄页分类中的“计算机”就是采用的主题词法。我感觉描述语言在黄页中的使用还只是很初步,作为一个目前广泛使用的检索语言,我认为我们还有不少方面的检索,特别是基于计算机的检索,可以依赖这种检索语言,这在下文中还会详细提及。

代码语言一般只就事物的某一方面特征,用某种代码系统来加以标引和排列。例如,化合物的分子式索引系统,环状化合物的环系索引系统等。这种检索语言比较适用于某一专业的检索,黄页一般都是综合性的检索,这类检索方式对于黄页来说距离比较远,这里就不再详细叙述了。

以上简单介绍了几种主要的检索语言,现在来看看黄页中检索语言使用的现状。目前黄页基本上使用的是体系分类法。但由于市场的需求,在某些方面已掺入了主题词作为分类项。这个分类法对于我们的工商类的纸质号簿应该说很适用,很符合人们对这些产品的检索思路。但对于消费类的号簿和电子类的号簿,并不是很适用。因为这些类型的产品,人们的检索思路多半根据主题来的,例如我今天吃饭,想吃面,面就是一个主题。围绕着这个主题可看到很多相关的信息。所谓的“衣、食、住、行”就是一个很好的消费类主题。

下面围绕黄页谈谈对于检索语言方面的一些想法:

第一,在类目索引的编排中增加相关索引的方式。目前黄页索引广泛采用直接索引。所谓直接索引,就是将分类表中的类目按照字顺排列(音序、笔序等)。这种索引比较简单,但用户如果不知道类目的名称仍然无法查询,所以意义不大,在检索语言中也很少使用。在检索语言中较常使用的索引称为相关索引,又称双关索引。这种索引编制的方法是:(1)按标题法的原则将类目名称进行仔细加工规范;(2)对涉及两个主题概念的类名做两条索引款目,以便在两个标题下都能查到;(3)利用倒置标题形式进行轮排,以使某些概念在特称和类称标题下都能查到,并可使用族概念集中;(4)补充分类表类名和注释中未列的概念(如同义词、主题词等);(5)对于须进一步依复分表分、仿分以及可交替使用的类目,用一定的符号或形式表示出来。为便于较直观地理解,现将相关索引举例如下:

类目原名

索引

肥料

农家肥料,农家

微量元素肥料,微量元素

速效肥料,速效

抗生菌肥料,抗生菌

这种做法的好处,首先它可以提供给用户一个类似于主题词的查询方式,可以将我们目前的体系分类法与主题词法有机结合。弱化体系分类法在主题表现方面的不足。其次,为了弥补体系分类法在某些方面的不足,目前分类表中较多采用了主题词作为分类类目,但如果过多采用会影响到体系分类的编目原则,使类目混乱。采用相关索引方式一来可以达到我们所要达到的目的,二来不会影响到分类体系。当然如果采用这种方式,会增加一定的工作量,这也是一个需要考虑的问题。

第二,关键词法、分类法结合。为什么要将这两种检索语言结合使用呢?

由于关键词法是以自然语言为基础的,对于没有受过情报检索语言培训的大多数用户来说,检索信息基本上用的是自然语言,如果将关键词法作为一个与用户交互的检索语言,对用户来说非常方便。而体系分类法作为目前黄页普遍使用的检索语言,其分类表、分类体系都趋于完善,换而言之,利用体系分类法,我们的检全与检准率是可以保障的。那么一个用户喜欢的前台和一个保证质量的后台如何结合?我想从关键词检索谈起。说到关键词检索,由于是自然语言检索很容易会联想到同义词、近义词缺乏控制的问题。例如用户要查“计算机”分类中的内容,而用户输入的可能是“电脑”、“电子计算机”等,当然不可能建立那么多的相似分类。为了提高检全率,减轻用户检索时拟定检索策略的智力负担,可以建立一个后台的词库,被称为后控词库,这种后控词表只用于检索而不用于标引。有了后控词表,就可以把各种“自由散漫”的自然语言标识组织起来,形成一个语义网络,以便于检索。用户假如从“电脑”入手查找,通过后控词表计算机可以自动把“计算机”分类找到,甚至还可以把“计算机”的相关分类都检索出来,例如“计算机维修”、“计算机销售”等供用户选择。一个简单的检索关系可以参考如下图示:

 这种检索方案对黄页来说目前是最大限度保留现有资源而做的一种扩充,比较容易实现,但与自然语言结合最好的应该不是分类而是主题词。也就是说,如果我们要将上面那个流程走得非常顺畅,应该是将分类法改成主题词法,但对于目前已使用多年、效果显著的分类法也不可能舍弃,那么我们该如何处理?请看第三点想法。

第三,分类主题一体化。所谓分类主题一体化是指分类法和主题法的有机结合,即对分类表和叙词表的术语、参照、标识和索引实施统一的控制,使两者有机地融为一体。近年来,分类主题一体化词表成了国内检索语言研究的一个热点,无论在理论研究方面还是在词表编制方面都取得了不少成果。我们可以充分借鉴这些经验,探索编制一部适用于黄页的分类主题一体化表。其一体化词表的编制模式大体可分为4种:

① 改造分类表。即对一部现存的体系分类法进行分面改造,使之成为一部分半分面分类表,同时要对分类表的词形、词义等实施严格的词汇控制,然后在此基础上用机编词表软件,自动生成一部对应的字顺叙词表。

② 改造叙词表。通过对叙词表的分面改造,将叙词表的范畴索引和词族索引改造为一部分面或半分面的分类表,或合二为一组成一个新的范畴索引,从而改善词表的分类显示功能。

③ 提高词表的易用性。

对现有的分类表和叙词表进行标引,编制双向对照索引。

④ 新编分面分类表、自动生成字顺叙词表。

具体的编制步骤请参阅相关资料,这里不再详细叙述。主要谈一个思路,即在对照上面的参考图,建立分类主题一体化之后,这个检索过程如下图示:

这样做的几个好处:

(1) 通过转换,同时完成分类和主题词的标引,提高标引质量,大大节省人力和物力。

(2) 用户可以在一个系统中进行分类检索、主题检索或者由分类号、主题词、关键词三者组成的混合检索,实现分类检索和主题检索的互补,提高检索效率。

(3) 用于自然语言检索系统,经改造可用作后控词表,并用作自动分类和标引的工具。

(4) 为建立分类主题一体化自动标引系统提供基础。


参考文献

1 侯汉清主编.索引技术昨索引标准.北京图书馆出版社

2 张琪玉编著.情报检索语言.武汉大学出版社


周毅俊  中国电信集团黄页信息有限公司国内运行部经理助理。