中国地质文献库建设及利用
刘素芳 刘 真
(中国地质图书馆 北京100083)
摘 要 中国地质文献库及检索系统是中国地质图书馆于1985年建立的大型地学文献检索系统。本文简介了该数据库的发展历程、建库原则、数据加工方法及数据库开发利用方式,提出了今后的发展方向。
关键词 地质文献 文献数据库
当今社会是一个信息社会,其特点是:一方面,随着现代科学技术的迅速发展,各种媒体的文献信息急剧增加,另一方面,计算机技术与通信技术的结合使用,进一步加快了信息处理和传输的速度;与此同时,信息的生产以及信息资源的有效开发利用在社会发展中占有越来越重要的位置,成为社会发展的关键因素之一。做为信息交流媒介的检索刊物、文献库及检索系统的重要性更加突出。为了便于地质人员在数量庞大、种类繁多的地质文献集合中,找到与自己研究问题有关的特定信息,中国地质图书馆在20世纪80年代创办了中国地质文献检索工具系列――《中国地质文献库及检索系统》和《中国地质文摘》。《中国地质文献库》及《中国地质文摘》为地质人员查找文献提供了便利,是我国地球科学和土地科学研究领域最权威的大型检索工具,是最权威的大型地学文献库,目前已开展网上检索服务。
1 中国地质文献库建设
中国地质文献库建立于1985年,《中国地质文摘》创刊于1986年。在各自的发展过程中两者一直在不断加强合作。2001年文献库及检索系统升级到网络版,实现数据联机标引和网上的即时发布服务。该文献库收录文献类型包括中文期刊(400余种)、专著、汇编、论文集等,累积文献量达24余万条。
中国地质文献库的建立及《中国地质文摘》的编制,需要经过选题、著录、编写文摘、文摘编辑加工、文献标引、分审、总审、排版等多道工序,直至数据入库、印刷出版、刻录光盘、发行、上网。
为了保证数据质量,对每道工序都制定了相应的数据加工规范。按国家有关标准及《<中国地质文摘>编辑加工规范》编辑加工文摘,使其达到出版要求。文献标引以《中国地质文献库标引指南》及《中国地质文献库记录格式》为依据,进行主题分析,选词以《地质学汉语叙词表》为基础,并注意组配标引和自由词标引。
1.1 中国地质文献库选题范围
中国地质文献库的任务是为广大地质科技人员提供便利的地球科学文献检索途径。据此,我们制定了文献库的收录范围,编制了《中国地质文献库分类表》,明确各类目收录文献的范围。目前,按地球科学及土地科学专业分为51类。涵盖地质科学各个类目,主要包括:基础地质、矿产地质、各种地质勘查技术方法、国土资源管理、土地科学等类内容。为扩大文献库覆盖面,我们不断收集国内中文期刊出版信息,增加收录期刊数量,最大限度地收全国内中文地学及相关文献期刊、专著、汇编、会议论文集等文献资料。
1.2 中国地质文献库记录格式
1984年,在建立中国地质文献库及检索系统时,设计了相应的机读目录记录格式和数据字段。1996年中国地质文献库及检索系统转移到微机上运行,对记录格式和数据字段进行了一次修改和补充。2001年,中国地质文献库及检索系统升级到网络版,实现数据联机标引和网上即时发布服务,对系统的数据记录格式和数据字段进一步补充和完善。目前中国地质文献库主要有如下字段:ISSN、ISBN、文献索取号、分类号、个人责任者、团体责任者、语种、会议、题目、刊名、版次、出版项、出版年、卷期、页码、载体形态项、标引词、译者、文摘、文摘员、基金项目、文摘期号、记录状态、文献类型、目录级别、文献载体等。
1.3 中国地质文献库联机标引系统
中国地质文献库联机标引系统的开发实现了数据联机标引,使系统管理和标引著录、数据加工界面更直观,并且可以对数据进行及时校对修改、定稿,提供网上检索服务。系统主要分为两部分:一、系统管理,包括:制作文摘、制作索引、用户管理、工作量统计、系统设置等。二、联机标引,包括:选刊、录入、编辑(标引)、审核、终审等五步。进入该系统后,在主界面中,系统会自动将上次的工作流程号给出(新用户没有)。点击“选刊”图标,进入选刊界面,选择刊信息,著录完成提交后,得到此刊的工作流程号,然后,点击:“录入”、“编辑”、“审核”等,进入相应工作流程。终审完成后,数据可在网上即时发布。
1.4 文献标引
文献标引的意义在于,通过标引人员对文献的内容特征用一定的检索标识的揭示,组织成为一个有序的文献标识集合,为用户提供有用的线索,使用户能在大量的文献中全面、准确、迅速地查找到特定的文献。由此可见,文献标引是建立文献检索系统和进行文献检索的重要环节,也是基础性的信息处理工作,对文献检索和利用具有重要意义。为了保证文献标引工作的质量,必须遵守一定的规范。在建库初期,于1984编写了《中国地质文献库标引指南》。至今,我们根据标引工作的需要进行了两次修订。标引指南主要对主题词标引、地区文献标引、分类标引规则及“中国地质文献库文献分类表”做了规定。
文献主题标引是依据一定的主题词表或主题标引规则,赋予文献语词标识的过程。中国地质文献库文献主题标引以《中国地质文献库标引指南》为依据,以《地质学汉语叙词表》为标引工具。根据标引规则选用最专指的叙词进行标引;当没有专指叙词时,可选用最直接相关的叙词进行组配标引;当词表中没有最专指的叙词,也无法以词表中最接近、最直接关联的叙词进行组配标引时,选用上位叙词标引;文献中的专业概念,词表中没有适当的叙词时,采用自由词标引。本文献库文献的主题标引,大多采用规范化的主题词作为标引语言,以自由词标引作为主题标引的补充和辅助手段,从而弥补主题标引的不足。
本文献库文献的标引词通常是由主标题词和一般叙词(及自由词)构成,主标题词是表达文献主要内容的叙词,是文献的主要检索途径,也是构成检索刊物主题索引的标目;一般叙词是表达文献研究的次要内容,是对主要内容的进一步说明、修饰及限定的叙词,是文献的次要检索途径。地质勘查和研究活动有显著的地域特征,地域因素对地质学来说具有极其重要的意义。多数地质文献的内容均涉及具体地区,用户也经常从某一地区入手查找地质学文献。地域特征成为地质文献的一个重要检索途径。在本文献库地区文献的标引中,凡文献主题涉及国家和地区的,均采用《地质学汉语叙词表》的"地名表"中叙词或自由词标引,以便用户通过地域特征查找文献。
文献分类标引是根据文献主题的学科、专业属性以及其他有检索意义的特征,赋予文献分类检索标识――分类号的过程。《中国地质文献库文献分类表》给出了地球科学文献各类目的收录范围及对应的分类号。在分类标引时,以本分类表及具体规则为依据。对于多主题文献可按多分类原则归类,并注意主类目归类的统一性。
1.5 地质学汉语叙词表
叙词表是进行文献标引和检索的工具,作为动态词表,要求根据文献标引的需要,随着学科领域的发展及时修订补充。
作为创建中国地质文献库的组成部分,1984年在《汉语主题词表》的基础上参照美国地质学会"GeoRof Theszurus"第三版编写了《地质学汉语叙词表》试用本。1989年起根据标引中自由词的使用情况补充了700余条词条作为正式叙词。1996年对词表进行了修订,出版了第二版叙词表,收录叙词8286条、非叙词1822条,共10108条;包含了基础地质、应用地质、技术方法等方面具有检索意义的名词、术语。叙词表包括主表、词组索引、范畴索引、英汉对照索引、地名表、地名表索引。随着地质学科的发展,我们发现第二版叙词表又不能满足地质文献标引和检索服务,2000年起我们每年都根据地球科学的发展及标引、检索的需要,对其进行补充,共补充260余条词条作为正式叙词。
2 中国地质文献库开发利用
中国地质文献库在近20年的发展历程中,以手工方式、计算机方式和网络服务方式为中外地质学者查询地学信息、跟踪学科发展、开展文献计量分析等工作提供了高效的服务。
2.1 网上检索服务及光盘服务
本文献库可以向用户提供数据光盘,供用户使用。同时,借助先进的互联网技术及软件技术向用户提供网上检索服务。用户登陆互联网可进入中国地质文献库进行检索。检索途径包括文献篇名、主题词、分类号、作者(作者单位)、刊名、出版年代、摘要及模糊检索。分类号是中国地质文献库自行编制的指向特定的某专业范围的号码,目前有51类。“模糊检索”是指检索“主题词”、“篇名关键词”、“作者”、“摘要关键词”。检索系统支持“布尔运算”方式检索,包括“and/or”;支持“二次检索”功能。
2.2 进行地质文献统计分析
进入中国地质文献库统计分析系统,在检索结果的基础上系统可提供主题词、作者、作者单位、来源、类目、出版年等统计分析数据,供人们进行统计分析。
2.3 编制检索刊物――《中国地质文摘》(月刊)及《中国地质文摘年度索引》
根据文献库中每月加工完成的数据,按文献类目序列编排《中国地质文摘》,条目著录格式按国家标准GB 3793-83《检索期刊条目著录规则》进行著录。每条著录项包括文献索取号、顺序号、文献题目、作者、刊名、出版年月、卷期、页码、文摘、载体等内容。同类中,文献按第一个著者姓名字顺排列,先中文著者、后外文著者,中文著者以汉语拼音字顺排列,外文著者以原文字顺排列。文献按双分类原则进行归类报道。如果一篇文献可归入两个类目,文献按主类目的分类号排,在第二个类目中做参见。年终出版年度索引,按主题词、著者、地名编排。主题索引按主标引词的汉语拼音字顺排列。著者索引分个人著者和团体著者两部分,分别按汉语拼音字顺排列,外国著者未译为中文的,按原文字母顺序排在中文著者之后。地名索引分中国和外国两部分。
3 中国地质文献库的发展方向
互联网的出现,以全新的方式提供了一个更为强大的信息传播平台,通过互联网使用信息资源成为信息传播的主要方式之一。网络数据库的出现方便了用户检索,用户可以借助互联网,不受时间和空间的限制,在异地自行进行检索。但是,网络检索也对以叙词表为标引和检索的文献库提出了挑战。由于用户不可能熟悉标引语言,进行检索时,多采用自然语言,这样就会降低检索效果。因此,需要在原有叙词表的基础上编制动态的后控词表,用于规范用户输入的检索词。后控词表的编制,为标引人员和用户建起了一座桥梁。标引人员进行标引时也可采用自然语言,从而减轻查词表的负担,提高标引速度。这也是中国地质文献库建库标引的方向。目前,我们正准备研制后控词表管理系统,并且在叙词标引的基础上,辅助自由词标引,为编制后控词表做好前期准备工作。
在20多年的发展历程中,中国地质文献库为地质学者查询地学信息、开展文献计量分析等工作提供了高效的服务,为地质科学的发展做出了贡献。今后还应该增加文献库收录文献类型和文献量,根据用户需要和实际情况,借鉴其他文献库的经验,增加文献库记录字段,增加检索点和统计分析功能,更好地为广大用户服务。
参考文献:
1 马张华,侯汉清编著.文献分类法主题法导论.北京:北京图书馆出版社,1997
2 刘素芳,刘真,史静.《中国地质文摘》编辑加工规范.北京:中国地质图书馆,2004
3 刘湘生,汪东波主编.文献标引工作.北京:北京图书馆出版社,2001
4 赵华茗,史静,刘素芳.中国地质文献库记录格式.北京:中国地质图书馆,2004
5 史静,刘素芳.中国地质文献库标引指南. 北京:中国地质图书馆,2004
6 宣桂香主编. 地质学汉语叙词表.北京:中国地质矿产信息研究院 全国地质图书馆,1996
刘素芳 女 中国地质图书馆副研究馆员。
刘 真 男 中国地质图书馆副研究馆员。