网络环境下自动化文献情报检索系统语言手段浅析
刘 兵 陈明慧
(中国地质图书馆 北京100083)
摘 要 为了使一些国家地质科技情报的服务统一在一个整体化的格局内,要求综合解决科学、方法、技术和组织等方面的问题,应在拟定解决方案时必须考虑由于国际上及建立的系统的情况而产生的诸多因素和条件。
关键词 检索系统 检索语言 地质学
目前世界上每年发表的地质学及相关学科的文献大约为20万余篇,为了开展对专家的情报服务,已开发了一些情报系统。同时像做文摘、标引、制作机读情报记录、查找所需情报等繁重的工作是由各情报系统各自进行的。而且,每个情报系统又采用各自的检索语言和程序:地质情报检索语言、标引方法和应用软件包。
显而易见,通过分工处理文献,并以机读数据库形成相互交换处理结果进行情报系统之间的合作,从经济上讲是合算的。为此,所有的参加者必须以统一的形式提交处理结果。目前文献著录的结构已取得一致意见,并按MEKOΦ的国际交换格式要求拟定了细则。然而除了形式之外,内容也须一致。这里有两个问题:第一,统一的地质学检索语言问题;第二,各国文字的文摘提交问题。第二个问题的解决取决于自动翻译的研究,其解决的前景还不明朗。至于以统一的地质学情报检索语言反映文献内容并以各国文字的词语构成文献标识的可能性,虽然实现这一方法没有原则性障碍,然而遗憾的是,至今实际上还没有解决。这是由于许多客观因素造成的。
20世纪 80年代初,当时专家们就开始研究文献的自动处理,计算技术的可行性受情报量的限制,仅采用顺序存贮方式,严格限制机器时间,缺乏全文处理的可能性。在这种条件下,专家们的努力集中于建立可以在检索标识中以最小量的词来反映文献内容的语言和程序工具。叙词检索语言(叙词表)是这一时期用于文献内容同义转换的主要工具。地质学叙词表的编表工作在许多地质机构中独自并行地进行。各个单位都首先考虑自己用户的需要来确定选词原则及词表组织原则。许多单位都用自己词表的词语建立了大量的文献记录。这些文献记录包括文献题录和检索标识。结果是各单位的情报集合以不同的语言反映。因此要使它们的文献处理协调一致和相互交换情报数据就不可能了。
近30年情况有了根本的变化。计算机功能大大增强,组建和生成大规模机读介质数据库成为现实。数据库文献著录更加详细,有可能用计算机处理文摘本文。有了能自动处理更为复杂的文献加工(包括标引)的程序。
在新的条件下检索语言理论及其在情报系统中的应用实践也有了根本变化。这些变化是由以下情况引起的:目前有条件实现将详细的文献描述信息一次输入数据库的原则,这种详细的文献描述能满足不同深度和专指性的检索需要。这意味着过去作为理论问题探讨的建立统一的地质学多语种检索语言的思想,现在已可能实现。解决这个问题的途径有多种。以下择要加以讨论。
手段一:自然语言全文检索系统
建立可以用自然语言检索文摘全文的程序手段。原则上在数据库里文摘可以以不同语种出现。对数据库的检索要求也可以用自然语言(或多种文字)描述。在技术科学领域内,由于术语较固定和通用,所以这种检索系统的使用很有效。在自然科学和人文科学领域,术语极其多样化,而且用语很不统一,自然语言情报检索技术的应用极困难,检索结果的查全率和查准率不能令人满意。
手段二:应用专门情报检索语言表达文献检索标识的情报检索系统
这类检索系统文献在进入数据库之前要进行专门处理――标引,将文献的内容从自然语言转换为专门的情报检索语言。文献内容只用这种检索语言表达。
根据标引工作自动化程度,这类系统可分为三种:
(1)非自动标引。文献标引和检索提问的标引由人工进行。
(2)部分自动标引。人工用自然语言标引关键词,电子计算机内存贮情报检索语言,计算机自动将关键词转换为检索语言的叙词。
(3)全自动标引。即自动分析自然语言的文摘全文,电子计算机存贮完整的字典。文摘的每个词汇单位都经语法分析,并根据情报检索语言和系统的规则加以规范化。文献著录转换为单一语种形式,即所有文献的文摘都用同一种自然工作语言编写。
自动标引的工具是在单一工作语言基础上编成的,它由自动标引用的整个词典组成:词干词典、词组词典、前缀或类前缀词典、词尾变化词典、分类或标题参照词典。按照用工作语言自动编制的检索标识进行检索。对使用其他自然语言的用户,要使检索结果符合需要,需补充用户语言的检索标识。将文献检索标识的词由工作语言转换为指定国家语言的工具建立在工作语言和本国语言标准术语相对应的双语种字典利用的基础上。
在工作原理上,自动标引系统近似于自然语言全文检索系统。对自动标引来说,必须要有一个大到能够在不丢失实际内容的条件下用自然语言规范化的文摘。在这种系统内,用自然语言输入文摘全文是必要的。
使用不同工作语言的情报系统之间进行数据库的交换,例如ГEOИHФOPM(工作语言为俄文)和BRGM(工作语言为法文),在这些系统采用各自的自动标引工具和具有双语种控制词表的情况下,要求将文献记录(包括书目著录和文摘)转换为工作语言,并将规范化文摘转换为对方工作语言的词。
将来有可能一个情报系统采用多种语言自动标引的某些综合工具。在这种情况下,将可能只用对方的工作语言的文献著录(文摘)进行数据库交换。每个情报系统都可独自自动标引本国工作语言编写的文摘和对方工作语言写的文摘。
建立多语种地质学术语词典(MCFT)是实现上述不同工作语言情报系统合作构想的必要条件。建立多语种地质学术语词典的任务本身与编制多语种地质学叙词表的任务差别不大。问题在于目前编制的多语种词表实际上相当于各语种的词汇对译,各国词表的词间关系各不相同。因此,利用多语种叙词表拟定各语种的检索标识时实际上只是作为一种词汇对译词典用。
在采用自动标引方法和手段条件下,最重要的任务是编制多语种地质学术语词典,编制地质学多语种和单语种词表的工作经验为解决这一问题作了准备。现在已有条件较快地把现有叙词表的词进行归并,从而编制多语种地质学术语词典,并在此基础上建立自动标引用的词典。
因此,第一个任务是编制一部其词汇单元数量不受限制的地质术语词典。为此,尽量统一现有地质情报系统中使用的叙词表的词汇:GeoRef(美国)、MHCO皿一地质学子系统(前苏联)、BRGM(法国)、前苏联地质部专业科技情报系统、地质情报自动化系统(捷克)、德国国家地质科技情报系统、ГEOИHФOPM (前欧洲经互会成员国),以及地科联地质文献委员会支持编制的多语种叙词表。第一阶段编制俄文和英文字典,然后是下一阶段建立相应国家语种对译词典。
词不按分类或范畴排列,词汇采用两种方案的字顺排列――拉丁字母和基里尔字母顺序,为了便于各个情报系统的专家工作,可以增加词汇的其他排序方式。
ГEOИHФOPM国际系统的率头单位BИ3MC在地质学多语种词表俄文版的基础上用应用程序包AИД CKOBKИ编制了自动标引综合字典。
同时,公开出版物国际情报系统的牵头单位(俄罗斯科技情报研究所)为“地质学”数据库的生成提供俄文文献的文摘。
地质学数据库在进入BИЗMC时要经过自动标引,因此文献著录将以多语种地质学术语字典的词补充文献检索标识。
ГEOИHФOPM系统的各国分支机构负责著录MИCOД不处理的各国地质文献,并将带有俄文文摘的文献著录送至BИ3MC,BИ3MC对它们进行自动标引,并补充到地质学数据库。
ГEOИHФOPM参加国的用户用俄文拟定情报检索需求送至BИ3MC。在BИ3MC,按照应用软件包ЛOИCK-1和YCC(将来为ДИAЛOГ-2)现行技术进行地质学数据库检索。检索结果通过网络发给国外用户之前要进行另外的处理。在这个过程中,文献检索标识要按照多语种地质学术语字典的双语种译法从俄文转译为相应的文种的术语。
在其他国家情报系统(如:BRGM、GeoRef, GeoArchive等)对应用多语种地质学术语字典取得一致的情况下,数据库的交换就有了现实的基础。由于所有情报系统的文献检索标识都将以多语种地质学术语字典的词来反映,当收到带有英文或法文检索标识的数据库时,计算机就自动将检索标识的词转换为相对应的俄文,以便于数据库适用于不同国家用户的检索,文摘不转换,仍为外文。同样,外国的合作者在收到俄文地质学数据库后,也将其中用多语种地质学术语字典的俄文词构成的检索标识,以类似的方式转换为他们国家使用的语种。
在广泛采用多语种地质学术语字典标引文献内容的条件下,地质学单语种叙词表的作用并未减小,它们始终是标引情报提问和优化文献库检索的有效工具。
由此看来,地质文献信息处理自动化系统中语言工具的应用和发展越来越能够满足科技人员对文献收集与处理的要求。
参考文献
1 耿赛,刘畅. 基于短语结构索引的自然语言检索. 现代图书情报技术,2004(2)
2 耿赛,汤艳莉. 面向自然语言检索的短语结构索引. 中国图书馆学报,2004(2)
刘 兵 男,1963年生,中国地质图书馆文摘编辑室副研究馆员。