我国索引研究二十年回顾与展望
——纪念中国索引学会成立20周年(下)
邱均平 楼 雯
(武汉大学中国科学评价研究中心 430072)
摘 要 中国索引学会成立20年来,为索引事业的发展做出了巨大贡献。20年来,我国索引事业发展如何?索引学正走向哪一发展阶段?有何发展趋势?这些都值得我们去深入分析和研究。本文利用文献计量法、内容分析法和社会网络分析法,对来源于CNKI的20年的(1991-2010年)索引学研究论文的总体、主题、关键词以及作者进行分析,发现索引学文献的增长符合逻辑增长规律;索引学期刊整体上符合布拉德福的文献集中与离散定律;索引学论文作者较符合洛特卡定律;说明索引学正趋于稳定发展的时期,研究重点主要在索引的理论、编制以及索引的广泛应用上;索引研究将更注重索引的实用性与其技术的发展。
关键词 索引学 中国索引学会 文献计量法 共词分析 作者分析
Abstract: The China Society of Indexers was found 20 years ago, its members have made a great contribition to the development of index study. 20 years passed, how index study develops, which period it has been through, those are what we should look into. The paper uses bibliometric, content analysis method and social network analysis to analyze overall, subjects, keywords and authors of journal articles of index study which are collected from CNKI from 1991 to 2010. And it shows that the growth model of the papers likely matches the logistic growth model, and the journal distribution is in accordance with Bradfords’ Law in general, moreover, the authors’ distribution is nearly in line with Lotka’s law. These all indicate that the index study is stabilizing development period, its research focuses primarily on the theory and the establishment of the index and its wide range of applications. In the future the China Society of Indexers will pay more attention to the usefulness of the index and its technology.
Keywords: Index Study,CSI,Bibliometric,Co-word Analysis,Author Analysis
5.2 论文关键词分析
关键词是作者从论文中摘出的能够反映文章基本内容的词。由于科研人员对同一内容或概念的掌握较为准确,因而所使用的关键词也趋向一致[15]。一篇论文的关键词是其核心内容的浓缩和提炼,某学科相关论文关键词的分布频次与特征,能显示该学科的总体内容特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向、学术研究的重点与热点等[16]。
5.2.1 高频关键词及其共现聚类分析
高频关键词是某个年段中出现频率最高的关键词,它能很好的反映某一领域的关注热点。我们对每年段论文关键词进行词频统计,对一些不规范的关键词进行简单处理(如将英文表达转换成中文),按顺序进行排列,得到表11所列出的各阶段前44个高频词及出现频次。
表11 各年段高频关键词
年段 | 高频关键词和频次 |
1991-1995 | 数据库25检索18情报检索13文献检索10关系数据库8学报7引文索引7Foxbase6计算机6检索系统6检索语言6情报检索系统6人工智能6软件6超文本5化学文摘5检索方法5科技期刊5数据结构5数据库管理系统5算法5引文分析5WPI4办公事务自动化4编码4计算机应用4检索工具4开发4联机检索4美国4期刊4矢量汉字4索引技术4索引结构4索引文件结构4统计分析4文献4信息检索4专家系统4ORACLE3标准化3调色板3高级语言3规范化3 |
1996-2000 | 数据库73科学引文索引44检索33文献检索30检索工具27信息检索26搜索引擎25Internet20查询20核心期刊18期刊18科技期刊17全文检索17图书馆15引文分析15工程索引14检索方法14空间索引14地理信息系统13面向对象13数据结构13管理12科技论文12引文索引12WWW11超文本11情报检索11文献计量学11FoxPro10SQL10查询优化10计算机10算法10优化10专利文献10存储过程9调色板9检索系统9评价9因特网9中国科学引文索引9多媒体8化学文摘8神经网络8 |
2001-2005 | 数据库184搜索引擎174科学引文索引143信息检索91地理信息系统88XML86检索72空间索引70中文社会科学引文索引55引文索引50工程索引49优化49影响因子48查询47网络47全文检索46引文分析43空间数据库38数字图书馆37R树35空间数据35期刊35查询优化33算法32基于内容的图像检索31图像检索31文献检索31Oracle30数据仓库30索引结构26WebofScience25聚类25科技论文25社会科学25统计分析25图书馆25SQL24信息资源23检索工具22数据挖掘22向量空间模型22INTERNET21化学文摘21检索方法21 |
2006-2010 | 搜索引擎258数据库206科学引文索引145信息检索144XML125空间索引124中文社会科学引文索引120lucene106P2P104全文检索102优化84查询优化80查询78地理信息系统77空间数据库75R树70数据挖掘67检索62引文分析60倒排索引54索引结构53本体52文献计量学47语料库46网络44移动对象44SQLServer43对等网络42潜在语义索引41中文分词41工程索引40向量空间模型39SQL38关系数据库38聚类38统计分析37空间数据36网格36算法35文献计量33性能优化33B+树32影响因子31ORACLE30 |
从表11中我们可以看到,在每年段频次最高的5个关键词中,检索相关的词最多,这又一次证实了索引的检索功用。关键词随时间的丰富变化也可以让我们看到学科的发展,不仅有新词的涌现,如“科学引文索引”、“搜索引擎”的爆发式增长,还有新旧词的词频交替更换,“数据库”一词在前三年段拥有最高频次,在第四年段被“搜索引擎”取代,也反映了张琪玉教授“网络信息检索工具是新颖的索引”的论断[17]。但是,单从关键词的个数和频次变化上,不能准确反映研究热点和趋势,下面我们利用共词聚类法进行分析。
共词聚类分析法,通过文献计量和聚类统计的方法,计算主题词之间的联系密切程度(在同一篇文献共同出现的频率),把相互间在一块讨论得比较多的主题词聚集在一起形成一个个类团。学科领域的研究内容,便是由这些类团组成的[18]。因此,在此部分的研究中,我们分别统计上述各年段关键词在同一文章中出现的频次,转换成矩阵形式,并进行规一化处理,得到相异矩阵,导入SPSS18.0中进行聚类,得到图5至图8的聚类结果。
依据图中所示,可以按适当的阈值将高频关键词分类,如图5,得到的七个词团分别是:代表人工智能的词团1(包括的关键词有13、15、39、22),索引标准的词团2(18、41、44、43),索引技术的词团3(24、33、42),数据库的词团4(5、35、1、10、20、26、12、14、38),索引编码的词团5(36、40、7、30、32、2、16、19、21、25、31),索引结构的词团6(6、28、34、8),信息检索的词团7(3、23、4、29、11、27、17、37、9)。
图5 1991-1995年高频关键词聚类情况 图6 1996-2000年高频关键词聚类情况
图6得到七个词团分别为:代表空间索引的词团1(18、19、20、22、32、11),网络信息检索的词团2(6、40、7、27、8、25、26、13),引文索引的词团3(37、44、28、41、10、24),科技期刊评价的词团4(21、33、15、39、12、23、38),数据库与查询优化的词团5(30、36、1、34、29、31、9、42),国外索引的应用的词团6(5、17、4、2、16),文献检索的词团7(3、35、43、14)。
图7得到八个词团分别为:代表引文分析的词团1(9、34、17、35、25),文献检索的词团2(27、43、39、26),SCI的词团3(10、31、7、44),资源开发与利用的词团4(3、13、22、33、11、19),空间索引的词团5(18、20、5、8、21、29、24、32、30),数据库与查询优化的词团6(12、37、14、1、23、28、40),网络信息资源的词团7(15、38、42),计算机信息检索的词团8(2、4、16、6、41、36)。
图7 2001-2005年高频关键词聚类情况 图8 2006-2010年高频关键词聚类情况
图8得到七个词团分别为:代表引文分析的词团1(7、19、23、8),SCI的词团2(31、36、3、43、40、检索),知识发现的词团3(17、35、39、28、38),计算机信息检索的词团4(29、32、22),空间索引的词团5(10、30、20、1、4、25、9),文本检索的词团6(6、16、15、14、37、21、26、24),数据库与查询优化的词团7(12、34、5、42、27、41、11、13、2、33、44)。
由此得知,20年来有7个索引学的研究热点交替出现,他们是:
(1)索引编制的研究,包括索引标准、索引结构、索引编码、索引技术,这些热点只在第一年段时出现,说明索引编制的研究在20世纪90年代初受到相当集中的重视,但索引学经过20年的发展,学者已不再仅仅将目光锁定在索引学本身,而将更多的精力放在拓宽索引学的研究上。
(2)模式识别与智能系统相关的研究,包括人工智能和文本检索。20世纪五六十年代国外兴起的人工智能研究,带来了人类认识自然和自然界的新的飞跃,也标示着机器计算和人类并行发展时代的到来[19]。该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等,在图中的第一年段出现后,仅在第四年段出现,分析原因,是因为到本世纪初众多学者开始质疑国内研究人工智能20余年成果在何处,于是该领域的研究又一次成为焦点。
(3)空间索引的研究,包括图6中的词团1和图7、8中的词团5。空间索引是指依据地理要素(或对象)的空间位置、形状或地理对象之间的某种空间关系,按一定的顺序排列的一种数据结构[20]。它在1996年以后都出现在高频关键词中,说明空间索引的研究在我国90年代后期成为学者运用索引思想解决地理信息系统问题的一大热点。
(4)信息检索相关的研究,包括信息检索,文献检索,网络信息检索,计算机信息检索。从图中也可以看出,信息检索相关的研究在20年中是贯穿始终的研究重点,它具有最多的高频关键词(如检索工具、检索方法、情报检索等),也同时在四个年段的词团中出现的次数最多(如网络信息检索和计算机信息检索都出现2次)。这是因为索引的一项重要功能就是方便快捷地供用户检索信息,20年来,索引在形式和技术上都有了重大突破,现今有依据索引思想发展而来的全文检索,有国际最大的联机检索系统DIALOG,都应用到了索引的技术和方法。在图中我们也可以看到基于内容的文本检索或图像检索出现在第三和第四阶段,其技术和结构的研究将会更复杂更精密,这也将会是未来研究的趋势。
(5)数据库的相关研究,包括数据库和查询优化。图5至8中,与信息检索一样,数据库的研究也在每个年段都出现,它包括数据库查询语言的研究,如查询优化、SQL、XML等,也包括数据库应用软件类的关键词,如Oracle、SQLServer、FoxPro。它不论在四个年段中稳定出现,还是在单个聚类图中的集中出现,都体现了我国学者对数据库研究的重视。20世纪80年代以来,我国索引越来越多地以数据库的形式出现,因此张琪玉教授提出现代的索引就是数据库的论断。数据库推动我国索引工作的现代化,扩大了索引原理的应用领域,它的出现大大丰富了索引学的内容,它不仅是索引学目前的研究重点,而且是当前及以后索引事业发展的重点建设内容。
(6)引文索引的研究,包括国外索引的应用研究,SCI的研究和引文分析等。上世纪五六十年代,美国情报学家加菲尔德创建引文索引,并将其创办成数据库版出版后,引文索引便成为世界上卓越的检索和评价工具,但到80年代我国学者才逐渐重视起来。聚类图中可以看到,在第二年段开始引文索引成为重点研究对象,同时,我国学者对国外索引最初的探索是对包括化学文摘和工程索引等检索工具的使用方法和功能评价层面的研究,最后热点逐渐转向SCI的研究和引文分析法的应用等。
(7)资源开发与利用的研究,包括科技期刊评价和知识发现。这一热点所包含的高频关键词有科技论文、影响因子、数字图书馆、科技期刊、评价、聚类和数据挖掘等。上文已经阐述过索引可以应用在信息服务、知识管理和资源开发与利用中,事实上不管是信息还是知识都是一种资源,对其进行有效地加工整理,再提供服务,索引的功能便体现出来。综合查阅图5至图8,可以发现,这一热点的研究经历了从片面到全面,再到专业的变化,如在第二年段仅出现运用引文分析对科技论文和期刊进行评价,到了第三年段,便出现运用影响因子和SCI进行资源开发与利用,而第四年段,信息和知识的开发与利用更加细化,数据挖掘与聚类算法等便是知识发现的范畴。
5.2.2 高频关键词词团的战略坐标分析
战略坐标是Law Bauin等于1988年提出的[21],用来描述研究领域内部联系情况和领域间相互影响情况。战略坐标为一个二维坐标,横轴表示向心度,纵轴表示密度,坐标的原点在两个轴的中位数或者平均数。其中:密度用来量度各个类别之内的主题词的紧密程度,它表示该类维持自己和发展自己的能力。向心度用来量度各个类别主题词与其他类别主题词之间的紧密程度,表示一个学科领域和其他学科领域的相互影响的程度,一个学科领域与其他学科领域联系的数目和强度越大,这个学科领域在整个研究工作中就越趋于中心地位。战略坐标可以概括地表现一个领域或亚领域的结构,它把每一个研究热点放置到坐标的四个象限中,从而描述各主题的研究发展状况[22]。
根据共词聚类分析结果和高频主题词共现矩阵,我们计算了每个类别的向心度和密度,绘制出四个年段研究热点的基本框架(如图9至12),由此分析出目前我国索引学的现状和发展趋势。其中,原点在两个轴的平均数,密度Y轴和向心度X轴将整个图形分成四个象限,称图形右上角为第一象限,右下角为第二象限,图形左上角为第三象限,左下角为第四象限,四个象限分别代表不同的含义,下面我们对四个年段的战略坐标图进行具体分析。
图9 1991-1995年词团战略坐标图
如果索引学从中国索引学会成立之日起作为一门学科而存在的话,那么我们设定1991-1995年这一阶段为索引学的初始期。第一象限中的类团有三个:人工智能、数据库与信息检索,它们的密度和向心度都是所有类团中最高的,表示它们不仅类团内成员间的关系密切,它们与其它类团的成员联系也很好。这说明两个问题,一是该时期这三个类团是学科研究的热点;二是这三个类团中的主题词是学科研究的活跃主题,在整个学科的研究中都受到关注,如数据库类团中的关键词有关系数据库、索引文件、检索系统、数据库管理、计算机应用等,他们在学科研究中都倍受关注,另外他们也与其余研究密切相关的,如人工智能类团中的关键词有超文本、专家系统、引文分析、人工智能,这些领域的研究都与索引学其他研究不可分割。
第二象限中的类团有索引标准和索引编码,他们是索引学核心的研究内容但研究不够成熟,这些类团的典型成员有标准化、规范化、矢量汉字、化学文摘、数据结构、算法、编码,它们在学科领域中表现活跃。但它们之间的联系比较松散,在该时期尚不能很好的自成一体,在类团的发展中容易被分解、演化成其它相关类团,其具有潜在的发展空间。
图10 1996-2000年词团战略坐标图
初始期在第三象限没有类团,说明该时期没有较成熟但属于边缘的研究。而第四象限的类团包括索引技术和索引结构,研究主题密度和向心度都较低,内部结构比较松散,研究也尚不成熟。这是因为在该时期,两个类团的成员(关键词)内部较为混乱,如索引结构的类团中包括学报、开发、索引结构、Foxbase,既有数据库有关内容又有资源开发有关内容,所以导致整个类团成为整个领域的边缘主题。
第二阶段有多个新兴类团涌现,可以称其为混沌期。在第一象限的类团只有国外索引的应用一个,说明在这一时期我国索引学的关注重点较倾向于对工程索引、化学文摘以及科学引文索引的研究,由于这些研究是对国外索引的简介与评价,所以研究较成熟。第二象限包括了数据库和文献检索的研究,它们是索引学研究的重点内容,但在此时期还不够成熟,这是由于类团内部各关键词的联系还不够密切导致的,比如文献检索的类团包含检索、专利文献、化学文摘、图书馆四个关键词,其相互共现次数很少,说明四个关键词关联性不强。另外,文献检索位于数据库与查询优化的右边,也说明此时期文献检索与其他类团的关系比数据库研究的关系更密切。第三象限也只有唯一一个类团,即网络信息检索的相关研究,它具有所有类团中最高的密度,说明其类团成员之间联系相当紧密,网络信息检索这个领域已经形成了一定的研究规模,但尚未与其他领域建立良好的沟通关系,容易得不到长足的发展。第二阶段类团最密集的是第四象限,这些都是新涌现的类团,也正因如此,它们的研究尚未成熟,成为索引学研究的边缘领域。
图11 2001-2005年词团战略坐标图
图12 2006-2010年词团战略坐标图
我们称第三阶段为调整期。从图中可以看到,大部分类团集中在密度Y轴附近,即各类团向心度接近所有类团向心度的平均数,说明此时类团之间关系较稳定密切,使得整个学科的研究也趋于稳定发展状态。第一象限中只有数据库的研究,它从上一阶段(图10)的核心但不成熟,演变成这一阶段的核心且成熟,说明数据库在这十年内一直受到重视。而混沌期的引文索引的研究在此阶段已经分化为引文分析及对SCI的研究,其中SCI独占第二象限,且向心度很大,说明其他类团的研究都与SCI有密切关系。四个类团在第三象限中,包括从边缘不成熟演变为边缘且成熟的空间索引研究,它经过十年的发展,已经初具规模,但仍与索引学其他子领域关系疏远;还有资源开发与利用、计算机信息检索和引文分析三个类团,也属于边缘不成熟研究。而在第四象限中的文献检索和网络信息资源研究,则是该时期索引学整个领域的边缘主题,这是因为新时代的到来,文献检索被赋予新的研究内容,如基于内容的检索等,使得检索面临新的攻关难题。
第四阶段则为发展期,整个学科中不再有边缘不成熟的研究,虽然体现了学科的进步带动了所有子领域的发展,但从以上四图中可以发现,边缘不成熟的研究有可能会演变成成熟的或核心的研究,第四阶段缺少这样的类团代表着没有新出现的研究领域,不利于学科的进一步发展。图12中可以看出大部分类团都位于第一、第二象限,即学科的核心研究领域,尤其是空间索引和引文分析的研究,成为该时期的重点研究对象,研究也较成熟。第二象限中有三个类团,其中有新出现的知识发现词团,由于密度和向心度较低,它几乎在靠近第四象限的位置;也有从第三象限发展而来的计算机信息检索词团,以及SCI的研究,这些词团都是索引学的核心研究领域,但却因类团内部联系松散,导致研究不成熟。另外,数据库与查询优化的研究转变成边缘成熟的研究,是因为重点研究的对象变成空间索引和引文分析,部分研究精力的转移的原因。
综上所述,在四个时期,既有不同关键词团的新老交替,也有同一类团在不同时期的研究成熟度变化,还有子学科的分化与综合,这样我们可以清晰看出一个学科的发展演变过程。
6 索引学论文作者分析
研究者是推动学科发展的力量。探讨作者的著述规律及其数量关系,可以发现学科的高影响力作者和科学生产率,明晰学科的增长和内容的分布及其结构;也可预测科学家数量的增长和科学发展的规模及趋势等[23]。
6.1 各年段作者数量分析
经过统计,20年来索引学论文总作者数为15959人,19972人次,具体各年段作者人数分布见表12。对于作者总体发文情况可以作者平均发文量来表示,人均发文量=论文总数/作者数,可以看出,每年段的人均发文量都在0.7篇/人左右,表明每个作者写的文章不到一篇。这一点也可从合作度和合作率看出,合作度=作者总人次/论文总数,合作率=合作论文数/论文总数,他们是衡量作者合作情况的主要指标。表中每年段合作度都在1.5人/篇以上,到了2006-2010年段高达1.85人/篇,可以理解为每篇文章至少由2人合作完成。而合作率更是逐年上升的,在1991-1995年有三分之二以上的文章是作者独著的,到近期近70%的文章是合作文章。图13中展现了各年段不同作者数的论文分布情况,可以看出,由一人单独完成论文的情况占每年段最大比例,但却是逐年下降的;另外三种情况则不同,不仅呈逐年段上升趋势,而且到第四年段由一人独著、两人、三人及以上完成的论文几乎平分秋色。种种现象表明,索引学论文最初主要由作者独著完成,但越来越倾向于作者合作的方式,这是信息时代带给学科的影响,因而索引学是作者合作关系密切的学科,论文作者也越来越重视科学交流。
表12 索引学论文作者分布
年段 | 1991-1995 | 1996-2000 | 2001-2005 | 2006-2010 | 总年度 |
作者数 | 1878 | 2762 | 4375 | 6944 | 15959 |
论文总数 | 1296 | 1895 | 3455 | 4852 | 11498 |
作者总次数 | 2035 | 3287 | 5654 | 8996 | 19972 |
人均发文量 | 0.69 | 0.69 | 0.79 | 0.70 | 0.72 |
合作度 | 1.57 | 1.73 | 1.64 | 1.85 | 1.74 |
合作率 | 28.55% | 41.00% | 58.44% | 66.96% | 55.79% |
图13 不同作者数的论文比例分布
6.2 洛特卡定律拟合分析
我们知道,洛特卡的时代,科学交流还很有限,他当年处理数据时,只统计了合作论文中的年长者,有限地考虑科学合作的情况,而对于索引学,已经证实了它是重在科学交流的学科,我们要验证其作者分布是否符合洛特卡定律,需要对数据进行处理,在这里,我们选择每篇论文的首作者(第一作者)作为分析对象。
我们按照处理洛特卡定律数据的一般步骤和规范标准,对其进行去除一定数量高产作者、建立数学模型、斜率求解、C值计算、预测、结果的检验等操作[24],将收集到的数据按表13进行计算,其中建立数学模型就是确定广义洛特卡定律中选定参数,广义洛氏定律公式为:F(x)=C/xa,分别得到C和a的值,则拟合公式为F(x)= 0.75706/x2.508。按照同样的方式,可以求得其他各年段的C值和a值,再进行拟合结果的检验,具体见表14。可以看到,每年段的DMAX均小于KS检验值,认为具有较好的拟合度,说明每年段的第一作者分布都符合洛特卡定律。但C值和a值都不符合洛特卡当年估计的值,C值在(0.7,1)区间内,但a值均在2以上,且在第一、第二年段更高,这是不同时期一个学科在洛特卡定律中的不同表现。可以说,虽然我们只研究所有论文的首作者,但四个阶段的论文作者皆符合洛特卡定律,说明索引学已经在向科学结构中的成熟期发展,已有部分作者成为核心作者的形势突显出来。
表13 2006-2010年段论文作者分布
x | y | X=lgx | Y=lgy | XY | XX |
1 | 2708 | 0 | 3.432649 | 0 | 0 |
2 | 489 | 0.30103 | 2.689309 | 0.809563 | 0.090619 |
3 | 194 | 0.477121 | 2.287802 | 1.091559 | 0.227645 |
4 | 75 | 0.60206 | 1.875061 | 1.128899 | 0.362476 |
5 | 29 | 0.69897 | 1.462398 | 1.022172 | 0.488559 |
6 | 9 | 0.778151 | 0.954243 | 0.742545 | 0.605519 |
7 | 2 | 0.845098 | 0.30103 | 0.2544 | 0.714191 |
8 | 2 | 0.90309 | 0.30103 | 0.271857 | 0.815572 |
9 | 2 | 0.954243 | 0.30103 | 0.287256 | 0.910579 |
10 | 2 | 1 | 0.30103 | 0.30103 | 1 |
17 | 1 | 1.230449 | 0 | 0 | 1.514005 |
N=4 ∑X= 7.790211954 ∑Y= 13.905581 ∑XX= 5.909280819 ∑XY= 6.729163955 |
表14 拟合洛特卡定律的KS检验结果
年段 | 作者总数 | 作者选取数 | DMAX | KS检验值 | C值 | a值 |
1991-1995 | 1195 | 1178 | 0.03768 | 0.04715 | 0.97408 | 5.422 |
1996-2000 | 1655 | 1609 | 0.03635 | 0.04007 | 0.93604 | 4.207 |
2001-2005 | 2654 | 2630 | 0.02036 | 0.03164 | 0.79611 | 2.718 |
2006-2010 | 3513 | 3466 | 0.02689 | 0.02750 | 0.75706 | 2.508 |
6.3 核心作者分析
作者与论文数量分布具有不均衡性,这可通过作者在一定时间撰写论文数量来衡量,称为“科学生产率”。表15列出了各年段发表论文最多的前二十二位作者,总体上高产作者的生产率逐年段增长。在20年中,从第一年段作者最多写5篇文献,发展到第四年段最高产作者写出28篇文章,既有持续的高产作者,也有阶段性的多产作者;有许多老一辈专家的退出,也有一批批新人的出现。各年段的作者都是学科领域的精英,特别是总年度的高频作者更为我们所耳熟能详,为我国索引学研究做出了重要贡献,见表16。
表15 各年段高频作者分布
1991-1995 | 1996-2000 | 2001-2005 | 2006-2010 |
作者 | 频次 | 作者 | 频次 | 作者 | 频次 | 作者 | 频次 |
陈宝珍 | 5 | 夏旭 | 8 | 邹志仁 | 19 | 郝忠孝 | 28 |
黄焕如 | 4 | 冯玉才 | 7 | 王国仁 | 15 | 李建中 | 21 |
柯银花 | 4 | 姚天顺 | 7 | 张琪玉 | 14 | 孙殿柱 | 18 |
李成建 | 4 | 张琪玉 | 7 | 于戈 | 13 | 李延瑞 | 15 |
马海群 | 4 | 林鸿飞 | 6 | 施伯乐 | 12 | 刘国华 | 15 |
王辉 | 4 | 史杏荣 | 6 | 苏新宁 | 10 | 廖巍 | 14 |
杨宪泽 | 4 | 孙贞寿 | 6 | 程刚 | 9 | 王国仁 | 14 |
张琪玉 | 4 | 阳小华 | 6 | 胡运发 | 9 | 朱昌志 | 12 |
张效赤 | 4 | 张福炎 | 6 | 李建中 | 9 | 景宁 | 11 |
朱猛 | 4 | 范文田 | 5 | 刘云生 | 9 | 钟志农 | 11 |
陈茜 | 3 | 方平 | 5 | 周洞汝 | 9 | 邱均平 | 10 |
郭世远 | 3 | 黄进 | 5 | 冯玉才 | 8 | 周傲英 | 10 |
郭玉强 | 3 | 刘刚 | 5 | 景宁 | 8 | 姜春林 | 9 |
侯汉清 | 3 | 刘牧 | 5 | 刘南 | 8 | 李战怀 | 9 |
李颖 | 3 | 施伯乐 | 5 | 刘仁义 | 8 | 卢炎生 | 9 |
刘秉毅 | 3 | 王连纪 | 5 | 孟小峰 | 8 | 平保兴 | 9 |
乔和建 | 3 | 王彦祥 | 5 | 汪卫 | 8 | 刘则渊 | 8 |
宋林松 | 3 | 曾福兴 | 5 | 王斌 | 8 | 孙焕良 | 8 |
王怀惠 | 3 | 陈茜 | 4 | 徐光祐 | 8 | 王雅戈 | 8 |
相秀芳 | 3 | 韩志军 | 4 | 中国社会科学院外国文学研究所资料组 | 8 | 熊伟 | 8 |
杨均辉 | 3 | 侯汉清 | 4 | 李军 | 7 | 于戈 | 8 |
尹仙香 | 3 | 胡小君 | 4 | 刘云 | 7 | 张磊 | 8 |
表16 20年来高频作者分布
作者 | 频次 | 作者 | 频次 | 作者 | 频次 |
王国仁 | 32 | 苏新宁 | 16 | 姜春林 | 12 |
李建中 | 31 | 周傲英 | 16 | 史元春 | 12 |
郝忠孝 | 29 | 李延瑞 | 15 | 王珊 | 12 |
张琪玉 | 27 | 汪卫 | 15 | 袁培国 | 12 |
于戈 | 24 | 李军 | 14 | 朱昌志 | 12 |
冯玉才 | 23 | 廖巍 | 14 | 庄越挺 | 12 |
施伯乐 | 23 | 刘云生 | 14 | 林鸿飞 | 11 |
邹志仁 | 22 | 卢炎生 | 14 | 汤庸 | 11 |
景宁 | 21 | 孟小峰 | 14 | 吴玲达 | 11 |
胡运发 | 20 | 徐光祐 | 14 | 钟志农 | 11 |
孙殿柱 | 18 | 邱均平 | 13 | 周洞汝 | 11 |
侯汉清 | 17 | 孙焕良 | 13 | | |
刘国华 | 16 | 王斌 | 13 | | |
6.4 作者共被引分析
本文选择在20年中发文量大于10篇的前37位作者,即表16中所有作者。以中国学术期刊全文库武汉大学镜像站为统计源,利用该数据库引文检索中的著者同被引检索功能,在线检索出37位高产著者的同被引次数,共得到666组不同的数据。通过检索得到共被引矩阵,其中李建中、刘国华、李军、刘云生、王斌和王珊发文较多,但经验证这些名字对应了众多的不同作者,故予以删除,最后得到31人组成的矩阵。为消除由著者被引次数差异所带来的影响,首先要对数据进行标准化处理,再利用SPSS18.0对这31位高被引作者进行聚类和多维尺度分析,并用PAJEK进行可视化,最后得到了图14、图15和图16的结果。
图14 高频作者聚类结果 图15 高频作者多维尺度分析图
图16 高频作者共被引网络图
图14为20年来我国索引学高产作者的聚类情况,31位作者细分为6个方向,这与实际情况比较相合。通过分析各作者发文的关键词,具体6个领域的内容为:①XML数据管理与数据挖掘。XML是可扩展标记语言,上世纪末开始盛行,它不仅是依赖内容的技术,而且是简单易用的数据存储语言,是当前处理结构化文档信息的有力工具,可以说它是新时代索引的一种。王国仁和孟小峰教授是国内XML数据库研究较为深刻的学者;施伯乐和孙焕良在近期都着重数据库与知识库的研究,取得重要成效。②数据库系统理论与技术。这一部分包括众多的研究主题和各大名校的学者,如研究数据库理论与应用的胡运发、卢炎生、郝忠孝、周傲英等,也有研究信息检索工具的冯玉才、汤庸等,还有研究面向生物的数据挖掘的汪卫和林鸿飞等。③多媒体信息检索。该领域的研究内容目前包括对于数字音频音乐、图像和视频基于内容检索的一套完整的技术、多媒体低级特征提取和高级语义描述,以及多媒体认证和水印等内容,吴玲达和周洞汝在该领域发表了大量有价值的论文,徐光祐则偏重于人机交互和多媒体计算的研究领域。④空间索引。国防科技大学的景宁教授和他的学生一起,为空间索引和移动对象数据的研究作出卓越的贡献。⑤应用索引技术的逆向工程。以孙殿柱教授为首的这三位作者均是山东理工大学研究先进制造技术的学者,他们近期将索引技术中的算法与结构等运用到逆向工程中,得到业界的认可。⑥科学计量与情报检索。最后这七位高频作者是索引学甚至情报学界的知名学者,其中南京大学的邹志仁、苏新宁和袁培国长期从事情报分析的研究,邱均平和姜春林分别是武汉大学和大连理工大学在科学计量与评价研究的代表人物,张琪玉和侯汉清则在检索语言学领域赫赫有名,为情报检索语言、自动标引、索引编制等领域的发展作出杰出贡献。
图15的结果部分体现了图14的内容,可以看出,作者之间的距离表示了他们的相似程度,距离越近说明越相似。从二维图可明显看出,右下方聚集了科学计量与情报检索研究的作者;在右上方则是关于应用索引技术做逆向工程研究的团队;而与数据库有关的研究在图形左侧,按图14的团队分布体现得不明显,这从二维图的拟合系数也可以看出来,stress>0.2,0.6<RSQ<0.9,说明拟合程度一般。研究XML数据管理与数据挖掘的作者主要分布在左上角,研究空间索引技术与应用的作者主要处于左上角靠中部的位置,这是两个相对集中的领域,也是因为作者群中作者数量较小,研究主题集中的原因;而对于数据库系统理论与技术的研究,作者分散在左半部及右上角的部分区域,分析原因,一方面是因为此领域本身包含众多子领域或主题,另一方面是因为作者在不同时期所关注研究的主题不同,即研究兴趣的不同,导致了图中分布广泛的特点;而分布最不集中的是研究多媒体信息检索的三位学者,他们零散位于三个象限中,这不仅源于三位学者来自不同的区域不同的学校,而且因为目前基于内容的图像检索等多媒体检索技术研究不够成熟,还处于发展阶段。
PAJEK软件可以对共被引原始矩阵进行可视化处理,使得作者之间的共被引强度获得较直观的体现。这也弥补聚类分析与多维尺度分析的缺陷,因为他们只是表现作者共被引的分布,但只是相似性的体现,他们之间共被引的强度大小无法具体展现,而可视化的网状结构较好地展现了作者之间的共被引强度。例如张琪玉和侯汉清、邱均平和苏新宁、施伯乐和汪卫、王国仁和于戈之间连线最粗,说明他们之间的共被引强度最大,强度越大,说明作者之间的研究主题或作者关系越接近,如张琪玉和侯汉清都是我国情报语言学界的专家,所以同时引用他们的文章最多,邱均平和苏新宁致力于研究信息计量,因而同被引次数也较高;施伯乐和汪卫、王国仁和于戈则是由于他们分别是复旦大学和东北大学计算机研究方面的教授,同样联系紧密。另外,图中节点大小代表作者的中介中心度大小,具有最高中介中心度的节点是控制网络中其他节点之间信息流的关键点。假如将具有最高介数的研究者从合作网络中移走,那么将会增加其他大多数研究者之间的最短距离,影响信息传输的速度[25]。图中中介中心度较大的节点有孟小峰、苏新宁、施伯乐、周傲英、邱均平和冯玉才,他们不仅自身是各个学校各个专业领域的领头人,还是与其他学科保持良好沟通交流的枢纽。因此,这些中介中心度大的作者在合作网络中起着沟通和促进信息流通的枢纽作用,有利于不同学术群之间的信息和思想的交流。
7 结论
通过对20年来的索引学的论文数量与期刊分布、主题内容与关键词分析以及科研作者的分析,可以得到以下结论:
(1)索引学研究论文较符合文献信息增长模型的逻辑增长模型。从1991年中国索引学会成立开始,索引学文献一直以快速增长的趋势发展,到近期论文数量稳定增长,可以说索引学目前处于大发展与稳定发展的过渡期,其较符合逻辑增长模型便可预测未来短期内学科论文的发展情况。
(2)索引学研究期刊整体上符合布拉德福的文献集中与离散定律,分年段的期刊数量也较符合布氏定律。索引学作为传统与现代相结合的学科,并没有丢失一般学科的普遍性,同样遵循文献信息的集中与离散分布规律,很好的控制着本学科期刊与论文的规模,这种表现对索引学的进一步科学发展具有参考价值。
(3)通过内容分析法和共词分析法我们知道,传统的索引理论与索引编制的研究仍然占据重要地位,同时索引的应用研究也是索引研究中的重要内容,研究的热点分布在多个方面,包括索引编制的研究、模式识别与智能系统相关的研究、空间索引的研究、信息检索相关的研究、数据库的相关研究、引文索引的研究和资源开发与利用的研究,其中目前较为成熟的核心领域包括数据库及其技术的研究、信息检索的研究、引文索引的研究和空间索引的研究,并可以预见在信息时代的推动和促进下,索引学将更注重实用性与技术的发展,更倾向于发展自身独立学科特色,并结合引入其他学科的新理论和新方法,更好地应用于其他学科。
(4)索引事业在中国索引学会的带动下,已经逐步形成自己的作者群,核心作者比较集中,多倾向于作者合作的方式撰写论文,经验证每年段均符合洛特卡定律,这对科学组织科研生产团队,加快学科发展速度都起到积极作用。索引学20年来新老交替的作者团队,几乎都是各大名校的学科带头人,他们为索引事业的发展作出巨大贡献。
参考文献
1 张琪玉.图书内容索引编制法——写作和编辑参考手册[M].北京:化学工业出版社,2006:1-2
2 张琪玉.张琪玉索引学文集[M].北京:国家图书馆出版社,2009:34-35
3 邱均平.信息计量学[M].武汉:武汉大学出版社,2007:51-56
4 刘湘生.中国分类主题词表 第二卷,主题词——分类号对应表.(三),M-T[M].北京:华艺出版社,1994
5 邱均平,杨思洛,刘敏.改革开放30年来我国情报学研究的回顾与展望(一)——情报学研究论文的年度分布与期刊分布分析[J].图书情报研究,2009(2):1-7
6 Price Derek de Solla. Little Science, Big Science[M].New York:Columbia University Press,1963
7 张琪玉.关于索引学研究和索引工作开展的设想与建议[J].江苏图书馆学报,1993(1):3-7
8 马子雷.中国期刊数量超出版社报社,如何应对数字化冲击[N/OL].中国文化报(2010-12-17).[2011-04-25].http://www.chinadaily.com.cn/hqgj/jryw/2010-12-18/content_1413570.html
9 庄守经.中文核心期刊要目总览[M].北京:北京大学出版社,1992
10 邱均平,邹菲.关于内容分析法的研究[J].中国图书馆学报,2004(2):12-17
11 侯汉清,杨淑娟.国外索引学文献的统计分析[J].图书馆理论与实践,1994(1):42-45
12 Eugene Garfield. The History and Meaning of the Journal Impact Factor[J].JAMA, 2006,295:90-93
13 王丽娟,陈文勇.情报学与相关学科关系再认识[J].情报理论与实践,2010(12):1-3
14 叶继元.图书情报学(LIS)核心内容及其人才培养[J].中国图书馆学报,2010(6):13-19
15 邱均平,周春雷,杨思洛.改革开放30年来我国情报学研究的回顾与展望(三)——情报学的发展阶段及趋势分析[J].图书情报研究,2009(3):1-9
16 马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006(2):163-171
17 张琪玉.中国索引事业:当前格局与问题[C].2005年中国索引学会年会暨学术研讨会论文集.上海:中国索引学会,2005
18 钟伟金,李佳.共词分析法研究(二)——类团分析[J].情报杂志,2008(6):141-143
19 胡扬,桂卫华,蔡自兴,叶华文.关于人工智能几个问题的思考[J].计算机科学,2010(10):173-174
20 陶志刚,赵敬道,谭建成.地理空间索引技术研究[J].测绘学院学报,2002(1):73-75
21 Law J,Bauin S,Courtial J-P,et al.Policy and the mapping of scientific change:A co-word analysis of research into environmental acidification[J].Scientometrics,1988,14(3-4):251-264
22 杨颖,崔雷.基于共词可视化的学科战略情报研究[J].情报学报,2011(3):325-330
23 邱均平,杨思洛,周春雷.改革开放30年来我国情报学研究论文的作者分析[J].情报学报,2009(4):626-633
24 马悦英.分形论在情报学中的应用[J].图书情报工作,1998(5):12,15-16
25 Otte E, Rousseau R. Social network analysis: A powerful strategy,also for the in formation sciences[J].Journal of Information Science,2002(6):441-453
邱均平 教授,博导,武汉大学中国科学评价研究中心主任,中国索引学会副理事长。