基于网络环境的地学文献信息自动化检索系统
康兰西 刘兵
(中国地质图书馆 北京 100083)
摘 要 随着信息技术的高速发展,学术资源急剧膨胀,目前世界上每年发表的地质学及相关学科的文献大约为3O万篇以上,地学学科综合性的特点使得获取相关文献资料时存在着很多的不便。文章介绍了国内外的地质学自动化文献信息检索系统的现状及存在的问题,为我国广大地质工作者充分利用现代化检索工具,及时获取信息,掌握国内外地学发展动向,开展科技创新提供帮助。
关键词 地质学 文献信息 检索系统
目前世界上每年发表的地质学及相关学科的文献大约为3O万篇以上,为了更好地开展对专家的信息服务,美国、俄罗斯、法国、英国、中国等国家陆续开发了地学信息系统。同时像做文摘、标引、制作机读信息记录、查找所需信息等繁重的工作是由各信息系统各自进行的。而且,每个信息系统又采用各自的检索语言和程序:地质情报检索语言,标引方法和应用软件包。
显而易见,通过分工处理文献,并以机读数据库形成相互交换处理结果。通过实际操作,我们发现,进行信息系统之间的合作从经济上讲是合算的。然而,各系统之间必须以统一的形式提交处理结果。目前地质文献著录的结构已取得一致意见,并按MEKOФ的国际交换格式要求拟定了细则。然而除了形式之外,内容也须一致。但仍有两个问题需要进一步解决;第一,统一的地质学检索语言问题;第二,各国文字的文摘提交问题。而第二个问题的解决取决于自动翻译的研究。其解决的前景目前还不十分明显。至于以统一的地质学情报检索语言反映文献内容并以各国文字的词语构成文献标识的可能性。虽然实现这一方法没有原则性障碍,然而遗憾的是至今实际上还没有真正解决。这是由于许多客观因素造成的。
早在60年代初,当时专家们开始研究文献的自动处理,计算技术的可行性受情报量的限长问短制,仅采用顺序存贮方式。严格限制机器时间,缺乏全文处理的可能性。在这种条件下,专家们的努力集中于建立可以在检索标识中以最小量的词来反映文献内容的语言和程序工具。叙词检索语言(叙词表)是这一时期用于文献内容同义转换的主要工具。地质学叙词表的编表工作在许多地质机构中独自并行地进行。各个单位都首先考虑自己用户的需要来确定选词原则及词表组织原则。许多单位都用自己词表的词语建立了大量的文献记录。这些文献记录包括文献题录和检索标识。结果是各单位的信息集合以不同的语言反映.因此要使它们的文献处理协调一致和相互交换情报数据就不可能了。
随着计算机技术的高速发展,计算机功能大大增强,组建和生成大规模机读介质数据库成为现实。数据库文献著录更加详细,甚至利用计算机处理文摘本文。如今计算机可以自动处理更为复杂的文献加工(包括标引)的程序。
在新的条件下检索语言理论及其在信息系统中的应用实践也有了根本变化。目前有条件实现将详细的文献描述信息一次输入数据库的原则,这种详细的文献描述能满足不同深度和专指性的检索需要,这意味着过去作为理论问题探讨的建立统一的地质学多语种检索语言的思想,现在已可能实现。解决这个问题的途径有多种。主要有以下几种语言系统:
1 自然语言全文检索系统
此系统的建立可以用自然语言检索文摘全文的程序手段。原则上在数据库里文摘可以以不同语种出现。对数据库的检索要求也可以用自然语言(或多种文字)描述。在技术科学领域内,由于术语较固定和通用,所以这种检索系统的使用很有效。在自然科学和人文科学领域,术语极其多样化,而且用语很不统一,自然语言情报检索技术的应用极困难,检索结果的查全率和查准率不能令人满意。
2 应用专门信息检索语言表达文献检索标识的信息检索系统
这类检索系统文献在进入数据库之前要进行专门处理二次标引,将文献的内容从自然语言转换为专门的情报检索语言。文献内容可用这种检索语言表达。
根据标引工作自动化程度。这类系统可分为三种:
(1)非自动标引。文献标引和检索提问的标引由人工进行。
(2)部分自动标引。人工用自然语言标引关键词.电子计算机内存贮情报检索语言。计算机自动将关键词转换为检索语言的叙词。
(3)全自动标引。为了自动分析自然语言的文摘全文,电子计算机存贮完整的字典,文摘的每个词汇单位都经语法分析,并根据情报检索语言和系统的规则加以规范化。文献著录转换为单一语种形式,即所有文献的文摘都用同一种自然工作语言编写。
自动标引的工具是在单一工作语言基础上编成的,它由自动标引用的整个词典组成:词干词典、词组词典、前缀或类前缀词典、词尾变化词典、分类或标题参照词典。按照用工作语言自动编制的检索标识进行检索。对使用其它自然语言的用户,要使检索结果符合需要,需补充用户语言的检索标识。
在工作原理上,自动标引系统近似于自然语言全文检索系统。对自动标引来说,必须要有一个大到能够在不丢失实际内容的条件下用自然语言规范化的文摘。在这种系统内,用自然语言输入文摘全文是必要的。
使用不同工作语言的信息系统之间进行数据库的交换。例如ГEOИHФOPM处理(工作语言为俄文)和BRGM(工作语言为法文),在这些系统采用各自的自动标引工具和具有双语种控制词表的情况下,要求将文献记录(包括书目著录和文摘)转换为工作语言,并将规范化文摘转换为对方工作语言的词。
我们认为,随着计算机系统的不断完善,将来有可能一个信息系统采用多种语言自动标引的某些综合工具。在这种情况下,将可能只用对方的工作语言的文献著录(文摘)进行数据库交换。每个信息系统都可独自自动标引本国工作语言编写的文摘和对方工作语言写的文摘。
建立多语种地质学术语词典(MCTT)是实现上述不同工作语言情报系统合作构想的必要条件。建立多语种地质学术语词典的任务本身与编制多语种地质学叙词表的任务差别不大。问题在于目前编制的多语种词表实际上相当于各语种的词汇互译,各国词表的词间关系各不相同。因此,利用多语种叙词表拟定各语种的检索标识时实际上只是作为一种词汇互译词典用。
在采用自动标引方法和手段条件下,最重要的任务是编制多语种地质学术语词典。编制地质学多语种和单语种词表的工作经验为解决这一问题作了准备。现在已有条件较快地把现有叙词表的词进行归并,从而编制多语种地质学术语词典,并在此基础上建立自动标引用的词典。
因此,提出第一个任务――编制一部其词汇单元数量不受限制的地质术语词典。为此,尽量统一现有地质情报系统中使用的叙词表的词汇:GeoRef(美国)、MЙC0Л―地质学子系统(前苏联)、BRGM(法国)、前苏联地质部专业科技情报系统、地质情报自动化系统(捷克)、前东德国家地质科技情报系统, ГEOИHФOPM (经互会成员国),以及地科联地质文献委员会支持编制的多语种叙词表。第一阶段编制俄文和英文字典。下一阶段建立相应国家语种对译词典。
词不按分类或范畴排列。词汇采用两种方案的字顺排列―拉丁字母和基里尔字母顺序。为了便于各个信息系统的专家工作。可以增加词汇的其它排序方式。
ГEOИHФOPM国际系统的率头单位BИЭMC在地质学多语种词表俄文版的基础上用应用程序包AИД CK0БKИ编制了自动标引综合字典。
同时,公开出版物国际情报系统的率头单位(前苏科技情报研究所)为“地质学”数据库的生成提供俄文文献的文摘。
地质学数据库在进入BИЭMC时要经过自动标引,因此文献著录将以多语种地质学术语字典的词补充文献检索标识。
ГEOИHФOPM系统的各国分支机构负责著录MИC0Л且不处理的各国地质文献,并将带有俄文文摘的文献著录送至BИЭMC。BИЭMC对它们进行自动标引,并补充进入地质学数据库。
ГEOИHФOPM参加国的用户用俄文拟定情报检索需求送至BИЭMC。
在BИЭMC,按照应用软件包、ПOИCI-1和YCC(将来为ДИAДOГ-2) 现行技术进行地质学数据库检索。检索结果寄回国外用户之前要进行另外的处理。在这个过程中,文献检索标识要按照多语种地质学术语字典的双语种译法从俄文转译为相应的文种的术语。
在其他国家情报系统(BRGM、GeoRef, OvoArchive等)对应用多语种地质学术语字典取得一致的情况下,数据库的交换就有了现实的基础。由于所有情报系统的文献检索标识都将以多语种地质学术语字典的词来反映,当收到带有英文或法文检索标识的数据库,计算机就自动将检索标识的词转换为相对应的俄文,以便手数据库适用于其它国家用户的检索。文摘不转换,仍为外文。同样,外国的合作者在收到俄文地质学数据库后,也将其中用多语种地质学术语字典的俄文词构成的检索标识,以类似的方式转换为他们国家使用的语种。
总之,在广泛采用多语种地质学术语字典标引文献内容的条件下,地质学单语种叙词表的作用并未减少,它们始终是标引提问和优化文献库检索的有效工具。现阶段地质文献信息处理自动化系统中语言工具的应用和发展构想就是这一现状。
参考文献
1 我国数据库的发展现状与趋势.现代情报,2006(11):138-140
2 数据库检索服务与信息资源共享.江西图书馆学刊,2006(4):81-84
3 现代信息检索在网络环境下的发展趋势.现代情报,2006(10):67-68
康兰西 女,现为中国地质图书馆馆员,长期从事计算机检索工作。
刘 兵 男,现为中国地质图书馆副研究馆员,长期从事计算机检索工作,曾发表论文若干篇。