中国地质文献数据库联机标引系统的主题标引方法 刘红光 黄文斌
发布时间:2018-09-25  浏览次数:8

中国地质文献数据库联机标引系统的主题标引方法

刘红光  黄文斌

(中国地质图书馆  北京100083

 

        针对中国地质文献数据库联机标引系统下主题标引中存在问题提出了解决办法,强调正确理解主题概念对于主题标引的重要性,阐明提炼主题词的方法和联机标引的步骤。

关键词  地质文献  数据库  联机标引  主题词法

 

    《中国地质文摘数据库》是一个综合性的地球科学文献数据库,覆盖了地球科学的全部学科、类目,包括地质理论、应用地质、勘查技术方法等。中国地质文献数据库联机标引系统(简称:GDS联机标引系统)是由中国地质图书馆自主开发的一套联机标引系统,采用主题词法,使用中国地质矿产信息研究院和全国地质图书馆19967月出版的《地质学汉语叙词表》(第二版),对地质文献进行标引。同时,标引系统还增加了“文摘”数据项,提高了地质文献数据库的实用性。

1 中国地质文献数据库联机标引系统的特点

  1.1 系统构架及运行平台

GDS联机标引系统采用浏览器/服务器结构,客户端只需要一台联网(局域网、校园网、互联网)的计算机即可登录中国地质文献数据库联机标引系统(图1)。具有操作简单、维护方便、安全可靠、功能齐全等特点。图1  中国地质文献数据库联机标引系统工作主界面

  1.2 提高了地质文献加工速度,缩短了报道时差

联机标引工作突破以往的手工标引方式,它的工作方式是专业标引人员通过主题分析提炼主题词,直接在联网的计算机上进行联机标引,从数据制作原稿开始,就在计算机上处理,经审核、修改后的数据直接收录到数据库系统中,检索人员通过计算机就能立刻检索到该文献。该系统的使用,省去了以前手工标引工作所需的大量繁琐工作,它不仅缩短入库周期,降低成本和提高效率,更重要的是它对传统地质文献手工标引工作而言,是地质文献标引工艺的一场革命。

2 联机标引工作流程

在对文献进行选题后,就要进行标引工作。其工作步骤是(1)根据中国地质矿产信息研究院和全国地质图书馆19973月出版的《中国地质文献库标引指南》中附录2《中国地质文献库文献分类表》对文献进行分类;(2)根据《地质学汉语叙词表》对地质文献进行主题词法标引。(3)提交数据,经审核、修改后正式收录到中国地质文献数据库中。

  2.1 文献分类原则

1)文献的分类原则应以文献所反映的学科性质完全相符为基本准则;(2)文献必须归入最大用途和最切合其内容性质为准则;(3)不能单凭文献题名进行分类;(4)文献分类不严格受赋予该文献的主题所限定;(5)每篇文献最少给一个分类号,最多不超过四个。

  2.2 单主题文献分类的一般规则

1)从不同学科或不同方面来研究同一主题的文献,按研究它的学科归入相应的类;(2)论述一个主题二个以上方面的文献,如果论述的方面是同一学科的,归入该学科。(3)凡从多学科来综合论述一个主题的文献,则按论述该主题的主要学科归类。

  2.3 多主题文献归类的一般规则

多主题文献可给多个分类号,其中一个为主类号(置于第一位)。主类号一般按以下情况确定:(1)主题是并列关系的文献,按重点的篇幅多的确定主类号;(2)主题是从属关系的文献,内容涉及的学科是上下位的关系,一般应归入其上位类。(3)主题是因果关系或影响关系的文献,一般按结果和受影响的方面归类。如果论述一个主题多方面影响和后果的则按原因和发生影响的主题给定主类号;(4)主题是应用关系的文献,一般按应用到的主题归类。若文献的目的在于说明被应用方面的,则以被应用的主题给定主类号。总之对于一个主题综合阐述在多方面应用的文献,则按主题的学科性质给定主类号。

3 地质文献主题分析及叙词标引中存在的问题和对策

  3.1 主题分析法

主题标引是一门实用科学,只有通过标引实践,才能深化和巩固已有的理论知识;主题标引又是一种技巧和艺术,需要通过标引实践来不断积累经验。规范化的主题词不仅能使同一主题的文献相对集中在一条检索条目下,而且保证了地质文献数据库词汇的标准化和统一化,便于数据库升级和联机检索。目前地质文献主题标引采用《地质学汉语叙词表》,中国地质文献库联机标引系统标引词分3级,1-主题词:描述文章的中心内容;2-一般叙词:进一步说明主题的叙词,如:所处的地质环境,使用的技术手段,方法等;3-自由词:一般标注文章中出现的专业概念或新学科、新理论,新材料等,但词表中没有的名词性术语。在对地质文献进行主题标引时,最容易犯的错误是由于对主题词概念理解不深,只按题名或字面标引。例如:对“川西南震旦系储集层有机包裹体在油气运移研究中的应用”一文的标引时,主标题词为“有机包裹体,油气运移,四川”,通过对文献仔细研读分析发现,它不能完全表达文献的主要内容。因为文章是从油气成因方面有机包裹体在运移和演化中的作用,并且通过有机包裹体里的化学成分等进行综合研究的。在了解文章中心内容和研究对象后,通过深层次地分析提炼主题词,进而确定一级主题词为“有机包裹体,油气运移,有机地球化学,四川”比较合适。

  3.2 主题词标引与上位标引

上位标引是解决检索中查全率问题所采用的方法之一。由于我们目前使用的联机标引系统无自动上位功能,为了提高查全率,一般在标引时要加上位标引。凡概念上有属分关系的自由词,应上位标引;用有属分关系的叙词做主标题词时,一般就要上位标引。例如:对“对闽西北盖洋群划分及时代归属的新认识――以明溪盖洋地区为例”一文标引时,一级主标题词为“震旦纪,地层划分,地层单元,福建”,二级叙词为“变火山岩,地质剖面,同位素年龄”,三级词(自由词)为“盖洋群”,三级地名自由词“明溪盖洋”。这其中一级叙词“震旦纪”就是自由词“盖洋群”的上位标引。这样由此说明了盖洋群的地质时代是震旦纪,而不是只标出自由词“盖洋群”。若不进行上位标引则不利于计算机检索和提高查全率。所以笔者认为在实际地质文献标引过程中,除注意主题词提炼外,还应该从检索意义来加强上位标引。

  3.3  主题词与自由词

实际工作中在对文献进行标引时,有很多文献的内容出现新的专业概念,而词表中没有适当的叙词表示时就采用自由词标引。对新学科、新理论、新材料等新出现的概念用自由词加上位词标引;对词表中没有列入的地层单位名,用自由词加上位词标引;对词表中没有列入的矿物、岩石名,尤其复合的岩石名用自由词加上位词标引;自由词应尽可能选用《地质词典》(地质出版社出版)以及《地质学名词》(科学出版社)里的词。例如对“赣北星子群变质岩的原岩恢复及其形成构造环境判别”一文中“星子群”必须用自由词标引,但在二级叙词标引时应对其进行上位词标引,通过对文献的仔细阅读,分析得出“星子群”是由变质核杂岩体组成,该杂岩体的主体是古元古代的产物,所以上位标引词为“古元古代”。自由词标引准确与否直接影响检索系统的查准率,在信息化网络时代,如何使用户能快速准确找到自己需要的东西,自由词标引也非常重要。

  3.4 标引深度

  标引深度是指标引一篇文献所用标引词个数(标识数量),标引词少,标引深度就小,标引词多,标引深度就大。所以说标引深度显示对一篇文献的主题进行分析描述的全面性和专指性两个方面的程度,标引的深度是影响查全率和查准率的重要因素。目前GDS联机标引系统中,每篇文献标引叙词一般为1015个左右。在网络环境下,我们要考虑到信息需求者的利益,从用户的角度看,必须是直观的、透明的。主题词一般要规范,对用户来说,不可能都能接受这种标准化的检索语言。目前GDS联机标引系统采用一种混合标引,即叙词加自由词标引方式,它既可接近用户,又能提高检索效果。但自由词不易过多,否则会给联机检索带来困难。现在有一种解决这个问题的办法,就是编制一个主题规范记录,主题词为规范记录,自由词为非规范记录,并通过规范记录建立它们之间的参照关系,达到指引检索者用规范化的主题词进行检索的目的。


参考文献

1 武宁生.宣桂香.中国地质文献库标引指南,1997

2 薛山顺.网络时代的文献检索与后控制词表.图书与情报,20003):6465

3 钱庆,胡铁军,李丹亚等.中国生物医学文献主题标引系统的研究.医学情报工作,20022):8486


刘红光  ,1959年生,工程师,现主要从事地学文献标引工作,曾在地质与计算应用方面发表多篇论文。