引文索引与中文生物医学引文数据库 刘青芬 雷春炳
发布时间:2018-09-25  浏览次数:11

引文索引与中文生物医学引文数据库

刘青芬           雷春炳

(第二军医大学图书馆  上海200433)  (解放军医学图书馆  北京100039)

        本文从什么是引文开始,说明了引文索引的作用,介绍了国内外主要的引文索引。通过对现有引文索引数据库的分析,阐述了建立中文生物医学引文数据库的必然和必要性。重点表述了《中文生物医学引文数据库》的开发成果及发展前景。

关键词  引文索引  数据库  生物医学

1 引文索引

  1.1  引文索引的定义

从字面上理解,引文索引顾名思义就是引文的索引。那么,什么是引文呢?引文是一种简短的参考性的记载,作者借它告诉读者含有类似信息的出版物的章、节;指明引用的文字、公式、结论等的来源。所以引文索引是提供某一作者及其著作在别的作者的著作中被引用状况的一种索引,又称引证索引。引文索引是已发表文献的一种索引,它以曾经发表的特定主题的文献为对象,摘录文献著者引用或参考过的资料,按著者姓名、出处等项排序,借以检索与该主题有关的文献情报。引文索引以被引用文献――引文为标目,继而列出引用过该文献的全部文献(来源文献),因此它也是以文献之间的引证关系为基础的一种文献索引。

    引文索引是图书馆学中编制索引的一种方法。引文索引给出了原文参考,即引用该文的文献的清单,可使用户能够找到与已知文献有关系的(近期)文章。根据引文在正文中的位置,可分为文内引文、页下引文和末尾引文(将引文放在篇章或书的末尾)。根据援引的性质,可分为书目引证和参见引证。引文索引法是采用引文索引语言来标引文献和建立检索系统的一套技术方法。最早出现在19世纪70年代,后经美国情报学家尤金.加菲尔德等人加以发展和完善,于20世纪60年代成功地运用于科技文献的标引和检索,成为国际上颇有影响和吸引力的一种新型索引方法。它是利用文献中普遍存在的参考引证现象,发现了两篇或多篇来源文献之间由一篇或多篇文献的相同引文所形成的关系,而这种关系具有学术意义和研究的价值,为人们提供了一种新的文献归类方法和检索方法。

  1.2  引文索引的作用

引文文献作为参考文献,是科技论文外部特征信息的重要组成部分,表现了论文的科学依据与历史背景,揭示了作者在前人科学研究基础上的发展和创新,对作者的论点提供论证线索。两篇或多篇论文不约而同地引用某篇或某几篇完全相同的论文的现象,称之为引文耦合。耦合的程度可以用耦合强度的指标来度量。引文耦合表达了作者的科学观点以及文献之间的一种固定的内在联系,以此类推可得到相互联系的引文聚类群体。这提供了从文献被使用角度检索文献的可能性,为研究文献引用结构主题相似性及学科结构提供了有效的手段。

引文索引与其他索引不同,既是参考工具,也是一种独立的情报检索系统。它提供了一种新颖而实用的检索途径,是研究科学学和文献计量学必不可少的工具。对于引文的分析是一种科学的研究方法,也是研究科学的方法。以引用文献与被引用文献之间的逻辑关系为基础和背景,进行引文分析,利用图论、模糊集合、数理统计及其他数学的方法,利用比较、归纳、抽象、概括等逻辑方法和逻辑思维方法对引文进行研究,研究科技文献、科学论文之间的引证与被引证现象,揭示出文献蕴涵着的情报特征和相关关系,揭示各种文献集合、与文献交流有关的各种集合的特点和集合之间的联系或关系等。根据科技论文之间的引证关系,引文    分析成为科学研究中文献计量学方法的最重要的工具。

通过引文索引,集中、重点研究引文,研究引文的数量、文献类型、语种分布、主题特点、时间及出处等,其主要作用在于探讨科学的结构、评价与选择期刊、确定核心期刊、明确科研人员文献使用习惯、考察学科著作与科学家的学术价值和社会影响。引文分析的结论和指标可以给予我们说明和佐证,帮助我们得到较为正确的答案。通过对他人早期文献的引用,客观分析文献的引证和被引证的相互关系,揭示学科的相关性和内在关系,全面了解某一学术观点的产生、发展及目前的研究现状;及时掌握科技发展动态,跟踪当前研究热点,缩短与先进标杆的差距;审度自己与同行研究工作的进展、确定位置与水平的对比坐标,从而避免走弯路,力争事半功倍的效果。引文检索是我国科技查新的一个重要内容和指标,评估和鉴别某一研究工作在学术界产生的影响力,从一个侧面反映科技成果被认可和利用程度及其学术价值。考证引文之间的关系,追溯其研究的理论基础、科学依据和研究价值,这在科学选题和科研立项等工作中是不可或缺的、具有重要意义的程序和环节。

    伴随科学技术、特别是计算机技术和信息技术的发展,引文索引的载体样式也从印刷型、书本式演变为现代化、网络化的数据库。目前数据库式的引文索引以其方便、快捷受到欢迎。引文数据库是特定来源和用途的文献集合体、具有特殊检索功能的文献数据库。引文数据库是二次文献库,主要依据文后的参考文献为信息对象,由来源文献和被引文献两部分组成,揭示两者的有机联系,把一篇论文和其他论文之间有意义的联系突显出来,服务于论著与科学的研究,是情报检索系统中非常重要的检索工具和情报评价工具。

1.3  世界公认的引文索引的典范

美国的《科学引文索引SCI》是世界公认的高质量、被各国广泛使用的引文索引,由美国科技情报研究所(ISI)于上世纪60年代首创。SCI覆盖了全球的科学界和知识界。随着科学技术的发展,在不同的时期,它的印刷版、磁带版、光盘产品等都发挥了很大作用,目前其网络服务通达世界各地。它是一致公认的评价分析科研成果和学术水平的权威统计工具,在世界科技界具有非常广大和深刻的影响力,为全球的科技发展作出了重要贡献,成为引文索引的经典之作。

2 中文科学引文数据库

  2.1  建立中文科学引文索引的必要性

任何事物都存在两面性,美国的《科学引文索引SCI》也不例外。SCI的文献来源的国别和语种有较大的局限,其收集偏重于英文科技文献。事实上,世界上不少国家的许多期刊是不可忽略的。SCI有助于解决中国用户检索国际论文和引文的需要;帮助中国的科学家和决策者分析世界科学技术发展状况及中国在其中所处的位置,为科技评价提供决策依据信息。然而,检索大量中文论文和引文的情况、分析和评价中国国内科学技术活动则需要依赖于中文文献的科学引文索引。研究建立中国自己的科学引文数据库,不仅可以充分利用中文的庞大期刊信息源,更好地满足中国人自己需要,而且可以弥补SCI的不足,使中文引文索引立足于世界之林,服务于全人类。

  2.2  我国主要的中文科学引文索引

讲到国产的引文索引,不能不提及具有首创意义和突破性创举的两大家。一是:1995年底,中国科学院文献情报中心历尽近10年艰辛,完成了《中文科学引文数据库CSCD》。它参照美国SCI的编制体系,基本上涵盖了全部的科学技术研究领域,收录中英文科技期刊645种、1989-2000年的来源文献数据71万余条、引文数据222余万条,可从不同角度满足我国广大用户在文献检索及引文统计分析等多方面的要求,成为一个集多种功能为一体、并能与SCI接轨的、具有多种索引的综合性大型科技引文数据库。它的出版发行填补了我国引文数据库建设的空白。二是:中国科技信息研究所信息分析研究中心与万方数据公司总结多年科技论文统计分析工作的实践经验,共同开发了《中国科技论文统计与引文分析数据库CSTPC》。这是继CSCD之后,我国开发的又一大型科学引文数据库。CSTPC也是自然学科的一个综合性科技论文和引文数据库,覆盖自然科学的各个领域,较CSCD引文库收集来源期刊要多,具备文献检索、引文与文献分析等功能,成为科技人员查找参考文献、对各学术机构科技论文发表情况进行统计分析的工具。

3 中文生物医学引文索引数据库

  3.1  建立中文生物医学引文索引数据库的原委

既然国内外已经有了科学引文索引数据库,为什么还要建立生物医学的中文引文数据库呢?众所周知,做任何事情想要面面俱到是不容易的;照顾到面,反之,就一个点而言,也许就显得不充足或较为单薄了。《中文科学引文数据库CSCD》收录期刊的学科范围涉及自然科学各领域,但收录的生物领域的专业刊物仅有100余种而已,与千余种中文生物医学期刊的庞大信息量之比为1/10,差距较大。CSCD存在来源期刊少、数据整理和规范化处理的周期长、更新速度慢等缺憾,影响到引文检索的完整性和及时性。CSTP也存在数据的更新周期长、从而影响引文索引质量的问题。

在现实的引文、引文检索工作中,利用清华同方《中国学术期刊全文数据库―CAJ》弥补以上引文数据库的不足,不失一种变通之法或权宜之计。CAJ是从“引文全文”途径来检索的,这样在文献引文条目中出现的任何信息都可作为检索点,从某种程度上实现多途径检索,保证引文的查全率。但CAJ不是基于引文数据库而开发的,它以扫描的图形文件方式存储的文章全文,文后所附的参考文献不能单独选择输出,引文查询时不能直接获得引文结果。国内中文期刊论文的参考文献错误率高达69%,通过CAJ检索引文无法达到智能排错。

    而医学科学,一方面它是科学的一部分,与其他许多学科、特别是高新技术与新兴科学的关系密切,相互促进,推进发展;另一方面,医学与生物医学的发展相当快。医学的独特性在于:它是与人类生存息息相关的科学,是社会的各阶层人士共同的依赖和保护。医学不分国籍、不论种族,为人类战胜疾病、健康生活和文明进程贡献自己的力量。有关医学的各行各业的发展、涉及医学的相关产品的开发都将直接或间接地造福人类。鉴于引文与科学发展的关系,为了医学科学的发展,必须进行医学专业领域的引文研究,所以要建立引文索引,满足包括医学的各学科领域的学术研究群体及科研人员查找引文、对引文检索和计量分析的需求。而现有的引文数据库的不能满足中文生物医学领域的引文查询和研究的需要,这样《中文生物医学引文索引数据库》应运而生。

  3.2  《中文生物医学引文数据库CMCI》

为完全满足医学引文检索需求,改变我国医学引文分析研究停留在原始的手工分析少数几种核心期刊和核心著者的现状,拓宽我国生物医学引文数据的利用,实现引文分析自动化,解放军医学图书馆于1999年开始研究《中文生物医学引文数据库CMCI》。它的总体设计规定:为保持数据的高水平和高质量,坚持数据库来源文献的收录范围的动态性;收录原则是选择文献类型,尽可能收全生物医学领域所有的核心刊和重要刊;收录的文章包括基础、临床研究等内容的研究性论文、综述文献,而译文、论文摘要、会议简介、简讯、消息、动态、技术讲座等文章属不收录的类型。以CMCC中1995年以来的数据为引文数据库的来源文献,按格式编辑整理;以1994年以来的中文医学期刊中的被引文献,包括了图书、会议、学位、专利及其他文献,作为建立该数据库的基础数据,组织录入、校对引证文献,从实用性出发,使每一条引文文献和来源文献相对应。由于我国中文生物医学期刊引文规范化程度低、错误率高,导致引文数据加工处理的工作量大,开发周期过长。为能使该产品及时提供为用户服务,解放军医学图书馆采用了分步实施与完善的方针来建设《中文生物医学引文数据库CMCI》。首先推出的是《中文生物医学引文查询系统》,在此基础上,逐步发展、完善,最终建成《中文生物医学引文数据库CMCI》,实现数据库的全部功能。

《中文生物医学引文查询系统》依托《中文生物医学期刊数据库CMCC》数据源基础得以实现。那么什么是CMCC呢?CMCC是解放军医学图书馆开发、目前国内医药卫生界最大的文献目录型数据库之一。CMCC的内容涵盖医药卫生所有领域,收录了1994年以来国内正式出版发行和自办发行的生物医学刊物1300余种,文献总量200余万篇,每年以26万条速度递增,数据每半个月更新。CMCC以范围广、收刊全、信息新、更新快等特点成为医学信息资源共享和检索查新的必备工具,是已经被国家卫生部门认可的重要检索工具。CMCC充足广泛的信息源是中文生物医学引文索引数据库坚实的来源文献基础。

    目前CMCI引文查询系统收录了1995年以来我国中文生物医学引文来源期刊900余种,涵盖生物医学领域所有的核心刊和重要刊,约200余万条CMCC源数据。1994年以来被引期刊1600余种,被引中文期刊文献130多万条。每月更新、新增数据,最大限度保证引文数据的及时性和与期刊文献的同步。通常我国作者的科研成果从发表到与读者见面平均要相对滞后半年左右,如果是年度更新数据,科研论文要拖至两年后才能被检索到,而两年前的信息会失去原来应有的价值。抓住生物医学文献信息数量大、更新快的特点,该系统的数据录入和加工与中文信息生物医学期刊文献数据库CMCC同步,CMCC是半月更新,所以该查询系统将以最快的速度及时报道我国医学期刊引文的情况。目前该系统的收录期刊种数、引文来源的准确性、更新速度均达到国内最好水平。

《生物医学引文数据库CMCI》系统设计构思是从实际出发,以实用性为出发点,保证引文数据的尽可能高的查全率和查准率。设计原理不同于传统引文数据库的关键词、主题词、字段限定和逻辑组配检索的模式,设置CMCC入口、引文入口、直接输入等三个入口途径。该查询系统检索方式独特,以一篇已知文献为检索入口,引入从不同途径扩充检索的概念,通过人机交互的方式,选择相同或相近引文,再进一步进行引文查询,以获取被引文献。比如,从一篇已知文献首先检索中文生物医学期刊文献数据库(CMCC),查出该文献,以此为目标文献,进而查询该文的引文文献,并通过不同字段项的组配等渠道对该引文进行扩充检索,检索出所有与之相关的引文,然后由检索人员通过判读和比较,排除引文中的各种误引因素,准确选择被引文献,进而获取引证文献。此种检索方法有助于最大限度地提高引文检索的查全率和查准率。特别设置作者/年扩展、作者扩展、题名/年扩展、题名扩展和出处扩展等各种途径的扩充检索方式,检索员浏览查询结果,判别出他引文献、自引文献、同一课题组的引文文献、被核心刊文章所引用、以英文方式引用的文献等等,为查新人员提供了客观详实的引文查询数据,检索结果自动存盘,适合情报人员和专业检索人员的使用。

该查询系统是我国目前生物医学领域规模最大的新型引文查询系统,它学科专一、专业性强,信息量大、内容广泛,尽可能全地再现了我国期刊的中文引文全貌。该系统已经正式推广使用,在医药图书情报领域、综合性大学和情报所等单位引起了广泛的兴趣;在医学科学研究、医药卫生科技成果检索查新、对科技人员的学术职称评定、学术绩效评价、选拔优秀科技人才等方面发挥作用;为科研课题立项和科研基金的合理投入提供基于实证的科学依据。同时为医学情报的深层次研究提供一种得力的工具,填补了医学领域在研究该类数据库方面的空白,为医学图书情报人员,研究人员和科研管理人员开展医学引文文献检索和文献计量学研究提供了一个必不可少的有效手段,为中国学术期刊引用报告、科技论文统计分析报告、科技基金论文统计分析报告等提供可靠数据统计资料。

3.3  《中文生物医学引文索引数据库CMCI》的完成与完善现在推出并投入使用的《查询系统》主要是为了满足广大图书情报单位对医学引文查询和检索的迫切需要,该查询系统是基于引文文献查询的系统,目前未构成一个类似于SCI或CSCD那样的具有引文分析等多功能的引文数据库,还不能称为引文数据库,尚不具备引文数据库应具备的其他功能,如机构查询、刊名查询、影响因子的计算等。这是因为中文医学期刊引文规范化程度低、参考文献的著录不规范、著录格式较混乱、项目不全、随意性严重、错误较多,比如,1994-2001年5万条中文生物医学参考文献中,完全符合引文规范的著录仅占31%。常见的主要问题有:缺少文后参考文献的数量较大,著者名是引文检索中非常重要和常用的检索入口词,著者项缺失或错误,导致了引文归属有误和引文分析结果的偏差;刊名是引文检索中非常重要的检索入口项和判断引文准确性的重要依据,是计算该刊被引率及影响因子的关键,而刊名著录混乱;出版项错误;参考文献双语化等。引文数据库是以文后参考文献为基础数据源而建立的,而原始数据缺乏可靠性,必然影响数据的质量和使用。只有期待中文参考文献的标准化处理,才能保证引文数据的质量和用户检索准确、使用方便,也正是因为文献标准化工作普及与实施问题,我国中文引文数据库才迟迟没有完成。对引文数据进行逐一核查和规范处理,工作量巨大繁杂,技术性很强,实现起来有一定的难度,所以暂无法实现以上功能。这是建立引文数据库需要攻克的难点所在。

引文的相关性概念是近年来引文数据库建设的一个新的重要概念。文献相关性是以共引文献为依据,共引文献越多,文献间的相关性越大。相关记录也是一种快速有效的扩检方法,不需改变或替换原先的检索式。相关文献的数量是动态变化的。但该查询系统没有设置相关文献检索功能。原因是:①相关性基于对引用文献的数量而定,引用文献的数量越多,其相关性越好。美国SCI严格选择来源期刊,要求每篇文章的引文最少不能低于20篇,而我国中文引文的现状是每篇文章只有6条引文,中文引文只有2-3篇,相关性很差,因而采用该功能意义不大。②引文的标准化是引文相关性的基础,而我国的引文质量太差,进行规范化工作并逐条处理难度太大。

目前解放军医学图书馆正抓紧进行对引文的作者地址和刊名以及英文化的中文引文的规范化和标准化处理,以及系统改进和功能完善等工作,以期尽早完全建成中文信息生物医学引文数据库,投入正式生产和使用。同时着眼长远做好服务、维护、进一步扩大数据源,完善系统,最终实现以多种载体方式提供用户服务的目标。


参考文献

1 郑晓南.ISI数据库与SCI选刊标准.中国科技期刊研究1999,10(2):108-110

2 曹志梅.我国四大引文数据库比较分析.情报学报2002,21(4):481-485

3 金碧辉等.中国科学引文数据库的研建及应用.中国科技期刊研究2000,11(1):14-16

4 雷春炳等.关于建立《中文生物医学科学引文数据库》的构想.医学图书馆通讯1998,7(4):4-6

5 田乃庆.科技期刊论文著录编排质量问题的分析与建议.中国科技期刊研究2001,12(2):116-118

6 赵立华.科技论文引文存在的问题及对策.现代情报2003,23(3):26-27

7 张政宝.中国期刊全文数据库的引文检索功能探析.现代图书情报技术,2003(2):82-83


刘青芬  第二军医大学图书馆教授。

雷春炳  解放军医学图书馆研究馆员。