我国索引研究二十年回顾与展望——纪念中国索引学会成立20周年(邱均平、楼雯)
发布时间:2018-09-26  浏览次数:33

我国索引研究二十年回顾与展望

——纪念中国索引学会成立20周年 

邱均平  楼雯

(武汉大学中国科学评价研究中心   430072

 

    中国索引学会成立20年来,为索引事业的发展做出了巨大贡献。20年来,我国索引事业发展如何?索引学正走向哪一发展阶段?有何发展趋势?这些都值得我们去深入分析和研究。本文利用文献计量法、内容分析法和社会网络分析法,对来源于CNKI20年的(1991-2010年)索引学研究论文的总体、主题、关键词以及作者进行分析,发现索引学文献的增长符合逻辑增长规律;索引学期刊整体上符合布拉德福的文献集中与离散定律;索引学论文作者较符合特卡定律;说明索引学正趋于稳定发展的时期,研究重点主要在索引的理论、编制以及索引的广泛应用上;索引研究将更注重索引的实用性与其技术的发展。

关键词  索引学   中国索引学会   文献计量法   共词分析   作者分析

Review and Reflection of the Index Research in China in the Past 20 Years Since: Commemorate

the 20th anniversary of The China Society of Indexers

Qiu Junping, Lou Wen

Research Centre of Chinese Science Evaluation, Wuhan, 430072

Abstract: The China Society of Indexers was found 20 years ago, its members have made a great contribition to the development of index study. 20 years passed, how index study develops, which period it has been through, those are what we should look into. The paper uses bibliometric, content analysis method and social network analysis to analyze overall, subjects, keywords and authors of journal articles of index study which are collected from CNKI from 1991 to 2010. And it shows that the growth model of the papers likely matches the logistic growth model, and the journal distribution is in accordance with Bradfords' Law in general, moreover, the authors’ distribution is nearly in line with Lotka’s law. These all indicate that the index study is stabilizing development period, its research focuses primarily on the theory and the establishment of the index and its wide range of applications. In the future the China Society of Indexers will pay more attention to the usefulness of the index and its technology.

Keywords: Index Study; CSI; Bibliometric; Co-word Analysis; Author Analysis

 

引言

索引是对某种或某一文献集合中所包含的各篇文章,或所讨论的各个局部主题,或所涉及的各种事项(如地区、人物等)以简明的方式分别著录标引,为用户提供便捷检索服务的工具[1]。我国近代索引的出现大约有不到一百年的历史,在学者研究时习惯把它当作一种方法,即“索引法”。而“索引学”这一学科的确立,主要源于1991年中国索引学会的成立,开展索引服务,是学会走向社会,融入信息服务业,促进我国索引事业前进的主要道路[2]。学会创建以来,至今已经走过了20个春秋冬夏,本文对20年来我国索引学研究历程及发展趋势进行较为系统的分析,回顾学会成立以来我国索引事业的发展情况,以期为后续研究与实践的开展提供参考,也以示纪念。

现如今,有很多种方法可以用来揭示一个学科的发展和趋势,如论文综述、专家访谈、知识图谱等,其中通过学术期刊论文的统计分析是一种定量的可靠的途径[3]。公开的学术期刊论文拥有出版周期短、种类多的特点,对期刊的一些款目进行统计分析,能够较及时客观全面地反映各个领域的成果和水平,在此过程中主要用到文献计量法、内容分析法和社会网络分析法等研究方法。

数据来源与处理

定量分析方法需要大量的数据支持,可靠和准确的数据来源和处理是研究可信的保证。

2.1 数据来源

我们选取CNKI的学术期刊网络出版总库作为数据的来源,其收录范围广而全符合我们研究的要求。在检索式的选择上,首先,我们查阅了《中国分类主题词表》中与“索引”有关的主题词,将其归纳整理后,发现与“索引”有关的叙词都含“索引”两字(如索引文法、索引组织等),因此我们可以确定直接用“索引”一词作为主题词或关键词进行搜索,并不影响检索效果[4]。于是,1991年至2010年的索引学研究论文在期刊库中共检索到28805篇。

2.2 数据处理

我们对28805篇文献进行处理,滤掉会议通知、会议报导、征稿简则、年度索引等非正式论文,在这里要说明的是,尽管本文是研究索引学的发展与趋势,但年度索引或工具书等索引形式的文献是应用索引法编制成的文献,并不是对索引学进行研究的论文,不符合我们研究的目的,因此也一并滤掉,最终得到索引学研究论文共11498篇。整个过程中,我们用计算机编制的程序实现自动化处理,但不排除遗漏或重复文献的情况,因此结合人工筛选,尽可能减小原始数据不准确带来的误差。

索引学论文年代分布

众多研究证明,文献信息数量随时间变化的关系,可以大致揭示科学发展的某些特点和规律,因此衡量一门科学发展的重要参数指标就是科学专业论文数量的变化,而用情报研究中常用的绘制拟合曲线,对评价该学科所处的阶段,预测该领域的发展趋势和动态具有重要意义。

3.1 索引学研究论文数量

20年间共有索引学论文11498篇,从1991年的276篇发展到2010年的1038篇,但期间并不是完全均匀增长,分别在1993年和2006年前后有所波动(见图1)。表1是所有索引学研究论文以一年为段进行的统计及占期刊库所有学科各年段论文问题的比例,可以看出索引学论文在所有论文中所占比例比较稳定,基本保持在0.45‰左右,只有1996年到2000年的期刊所占比例未达到0.4‰以上,这是由于期刊库本身20世纪90年代初收录的总期刊不全,还有是因为我们用人工筛选文献时,并只能做到一定程度上的统一准确。总体来说,索引学研究论文在期刊库中所占比例很低,不如其他人文社会科学类的学科论文所占期刊库论文的比例(如情报学的所占比例在2‰到3‰之间)[5],可以说明索引学还有很大的发展空间,也需要众多索引学学者在该领域进行探究。

1  索引学各年论文量

1  索引学研究论文所占比例

年段

1991-1995

1996-2000

2001-2005

2006-2010

论文总数

3055307

5340687

7761227

11294363

论文数

1296

1895

3455

4852

所占比例(‰)

0.424

0.355

0.445

0.43

3.2 索引学研究论文增长模式

文献信息的增长规律是“三计学”的六大规律之一,普赖斯指数增长模型、线性增长模型和逻辑增长模型都是已经成为经典的分析文献增长的模型,我们可以用这些模型,对索引学的文献增长进行数学模型的拟合分析。

情报学家普赖斯在《小科学,大科学》一书中论述了科学文献和科研人员的指数增长定律和逻辑增长定律,并指出指数型规律终将成为逻辑型,因此,科学文献的增长呈现阶段性[6]

我们将20年来索引学的逐年论文量计算其逐年累积文献量,年度编号用X表示,逐年累积文献量用Y表示,对两组数据用SPSS17.0作回归分析,进行拟合判断。发现索引学研究论文逐年累积文献量符合逻辑曲线分布,可用方程Y=1/(1/3000+0.852×0.003X)表示,数据显示拟合显著性较高,R20.960P0.000,所以方程具有很好的拟合度(见图2)。可以看出,我国索引学的研究事业从1991年一直处于快速发展状态,到了2005年以后开始平稳发展,可以认为索引学目前处于大发展与稳定发展的过渡期。随着中国索引学会提供索引服务,走向社会的发展进程步步迈进,索引学也会逐步完善,正如张琪玉教授的思想:当索引这门学问拥有丰富的科学体系和科学结构时,索引学就是一门成熟的学科了[7]

2  索引学论文增长拟合

索引是基于情报检索语言发展起来的,它有深厚的学科背景,但也因为此才使它更具传统性和专一性,造成我国索引知识的普及程度较低。对于信息社会高速发展的现代,索引则用一种新的形式展现在公众眼前,那就是数据库。近些年,一些学者在研究数据库的同时,还结合了传统索引的技巧和功能,所以我们相信在今后一段时间内索引学会逐渐适应新兴时代的发展模式,建立索引学的科学体系和结构,成为待续稳定发展的学科。

索引学论文期刊分布分析

布拉德福最早发现了文献信息的集中与离散的分布规律(布氏定律),他指出某一特定课题、学科或领域的论文在期刊中不是均匀分布的,而是具有明显的集中与离散规律。那么索引学研究论文是否也符合这一定律?能够代表索引学研究核心的期刊都有哪些?

4.1 各年段期刊数量统计

根据我们的统计,20年来有3193种期刊载有索引学论文,期刊数量比较多,一定程度上说明索引学涉及的领域比较广。至今,我国期刊数量已近1万家[8]CNKI收录了其中的9466种期刊,就是说有三分之一的国内期刊收录了有关索引学方面的论文,还有不少学术期刊是内部刊物或停刊、改动刊名等情况,我们都没有算在内,实际比例应该更高一些。表2中列出各年段载有索引学论文的期刊种数,载文比表示在各时段平均每种期刊载文数量,可以看出,索引学论文分布较为均匀,并呈逐年段上升的趋势,每个阶段的载文比都在2篇到3篇,即一个阶段平均每一种期刊的论文都会有2篇到3篇的文章是有关索引的。综合以上两个特点,即期刊种类较多,载文比较小,说明索引学研究论文分布领域较广,其中1991-1995年分布最广,而2005-2010年相对集中,这种过程的演变,也是学科不断发展的表征。

2  各年段索引学期刊数量

 

1991-1995

1996-2000

2001-2005

2006-2010

论文篇数

1296

1895

3455

4852

期刊数

526

652

1256

1493

载文比

2.46

2.91

2.75

3.25

4.2 各年段高频期刊分布

在我们统计的3135种期刊中,有一部分期刊发表相关论文数量较多,我们称其为高频期刊,他们在很大程度上代表一门学科在某时间段的研究重点,表3是各年段载有索引学论文最高的前15种期刊。

从中可以看出,图书情报类的期刊在20年的时间内逐年段减少,1991-1995年这段时间中,15种高频期刊中就有11种是图书情报类的期刊,而2006-2010年时只剩排名最后的《图书情报工作》,说明图书情报学的研究人员逐渐淡出索引学,也可以说索引学的研究人员;另一个特点是第一年段图书情报类的期刊主要为图书馆学的期刊,第二年段涌现出一批情报学类的期刊,到第三年段发现图书馆学的期刊已经全部被情报学的期刊替代,这一特点说明索引作为最初为图书馆编目标引服务的工具,逐渐转变成为学者对其体系和内容进行研究的学科。

另一方面,相对于图书情报类期刊逐渐减少,计算机类期刊则逐年段增多,高频期刊中从第一阶段没有一种计算机类的期刊,增多至2006-2010年段的12种都是计算机类的期刊,尤其是从在2001-2005年突然占据高频期刊种数的一半,这种爆发式的剧增与索引事业积极融入新时代的行动是密不可分的。后经证实,这些期刊能出现在有关索引学的高频期刊中,是因为他们大多专注于索引自动化、数据库技术和搜索引擎优化等的研究,索引学学者对索引在新世纪的创新做出杰出贡献。

3  各年段高频期刊分布

1991-1995

1996-2000

2001-2005

2006-2010

刊名

频次

刊名

频次

刊名

频次

刊名

频次

辞书研究

35

中国科技期刊研究

49

计算机工程与应用

106

计算机工程

204

图书馆杂志

32

医学情报工作

36

计算机科学

65

计算机工程与应用

117

医学图书馆通讯

30

辞书研究

33

计算机工程

59

计算机应用

88

医学情报工作

27

图书馆杂志

29

西北工业大学学报

43

计算机应用研究

74

图书馆论坛

24

江苏图书馆学报

27

现代情报

38

计算机工程与设计

69

图书馆建设

23

情报杂志

27

现代图书情报技术

37

电脑知识与技术

64

图书馆学研究

20

图书馆建设

24

小型微型计算机系统

36

微计算机信息

63

中国科技期刊研究

20

医学图书馆通讯

23

计算机应用

35

计算机科学

62

大学图书馆学报

19

计算机工程与应用

20

计算机应用研究

33

西北工业大学学报

59

情报理论与实践

17

年鉴信息与研究

20

情报科学

33

小型微型计算机系统

58

数量经济技术经济研究

17

情报科学

20

情报杂志

33

计算机应用与软件

55

江苏图书馆学报

16

图书情报工作

19

计算机研究与发展

31

计算机研究与发展

50

农业图书情报学刊

16

现代图书情报技术

19

软件学报

28

测绘科学

42

图书馆理论与实践

15

计算机应用研究

18

情报学报

24

图书情报工作

39

文献

15

图书馆理论与实践

18

中国科技期刊研究

24

软件学报

37

4为所有年份高频期刊分布,排出了20年间发表论文数不少于3455种期刊,共载有论文3947篇,即不足全部期刊总数的2%的期刊就发表了全部论文数的34%的论文,说明索引学有关论文相当集中。同时,从表3、表4综合看出,除图书情报学和计算机类的期刊,一些期刊与索引学有密切关系,比如《辞书研究》、《中国科技期刊研究》等,还有索引学边缘学科的期刊(《测绘科学》、多个学报)也在不断涌现,说明索引学保持其自身的传统特色的同时,还扩展了研究和应用的领域,做到传统与创新的兼收并蓄。

4  20年中索引学高频期刊分布(频次≥34

刊名

频次

刊名

频次

刊名

频次

刊名

频次

计算机工程

284

情报科学

89

农业图书情报学刊

53

图书与情报

40

计算机工程与应用

244

计算机工程与设计

87

医学图书馆通讯

53

计算机辅助设计与图形学学报

38

计算机科学

134

电脑知识与技术

81

计算机工程与科学

52

科技情报开发与经济

38

计算机应用

129

现代情报

79

大学图书馆学报

51

解放军外国语学院学报

37

计算机应用研究

128

计算机应用与软件

76

电脑编程技巧与维护

51

科技信息

37

西北工业大学学报

112

软件学报

75

中国图象图形学报

51

编辑学报

36

中国科技期刊研究

111

情报学报

72

图书馆学研究

48

微电子学与计算机

36

小型微型计算机系统

104

微计算机信息

70

测绘科学

46

大学图书情报学刊

35

现代图书情报技术

101

医学情报工作

69

情报理论与实践

46

计算机与数字工程

35

辞书研究

96

图书馆建设

68

江苏图书馆学报

45

西南民族大学学报

(人文社科版)

35

情报杂志

96

计算机学报

62

福建电脑

43

中国图书馆学报

35

图书馆杂志

94

图书馆理论与实践

59

华中科技大学学报

(自然科学版)

41

计算机与现代化

34

图书情报工作

93

计算机系统应用

57

年鉴信息与研究

41

情报资料工作

34

计算机研究与发展

91

图书馆论坛

54

文献

41

 

 

4.3 各年段期刊分布规律

下面我们按照布氏定律方法分析索引学研究论文发表的期刊。表5所示的是全部索引学期刊的布拉德福分区表,分析所有年度期刊上的相关论文,按照平均载文量的多少排序,可将发表索引学领域论文的相关期刊分成相等三个区:35篇以上的期刊;小于等于34篇而大于等于5篇的期刊;小于等于4篇的期刊。可以看出,期刊的各区相关论文数大体相等,而相继各区的期刊数基本上成等比数列N1:N2:N3=53:379:27031:7:72,公比约等于7,说明索引学论文较好的符合了布拉德福定律。

6是按年段进行计算的期刊论文聚集情况,尽管每年段的公比不尽相同(在4-7之间),但明显看出,后三年段较好的符合了布氏定律,第一年段存在较大偏差,其原因主要是布氏定律只有充分满足几个条件才能成立,其应用也受这些因素影响,索引学在中国索引学会成立后的发展还处在学科的探索时期,受其他环境的影响也较多,所以论文数没有严格遵循布氏的三分法。

 

6  索引学期刊整体分区表

分区号

载文数

期刊数

论文数

1

35

53

3879

2

5-34

379

3817

3

4

2703

3802

7  索引学期刊各年段分区表

 

1991-1995

1996-2000

2001-2005

2006-2010

分区号

载文数

期刊数

论文数

载文数

期刊数

论文数

载文数

期刊数

论文数

载文数

期刊数

论文数

1

13

19

378

10

34

621

10

48

1122

23

33

1614

2

3-12

113

403

3-9

141

654

3-9

207

1201

4-22

213

1620

3

2

394

515

2

477

620

2

1001

1132

3

1247

1618

总体来说,虽然索引学期刊较好的符合了布氏定律,但我们可以看到,一区的期刊数几乎都在30种以上,而社会科学的核心期刊一般控制在20种左右[9],这样很不利于核心期刊的选取,说明了索引学文献一方面拥有其聚集状态,另一方面却将一部分重要文献分布在过于广泛的核心期刊中,学科研究不够集中,这一点应引起相关学者的注意。

索引学论文主题分析

5.1 论文内容分析

应用内容分析方法,对文献的特定主题内容进行定性和定量剖析,可以提示该主题内容的实质,系统、客观地把握其研究动态和趋势[10]

5.1.1索引学主题的类目与分析单元

侯汉清教授曾指出索引学的主要研究领域包括索引语言、索引系统、索引技术、各学科文献的主题标引、各类型索引的编制、索引生产、数据库及联机检索等[11]。《中分表》收录的所有有关索引的叙词有“索引编制”、“索引编制自动化”、“索引编制机械化”、“索引理论”、“索引方法”、“索引文法”、“索引文件”、“索引组织”,加之近年来索引学的发展,我们综合得出索引学主题应分为索引理论,索引的编制,索引的应用,索引事业,索引的相关学科这五大类,细分的类目与分析单元见表8

8  类目与分析单元表

索引理论

索引编制

索引的应用

索引事业

相关学科

其他

历史

结构

用于检索

培训

目录学

 

索引语言

技术

数据库与联机检索

组织活动

文献学

 

索引系统

标准

信息服务

 

图书情报学

 

 

 

知识管理

 

 

 

 

 

资源开发与利用

 

 

 

 

 

用于评价

 

 

 

索引理论由历史、索引语言和索引系统三个类目组成,其中,“历史”包括索引的发展或变化,索引学研究综述,索引学者传记等方面,“索引语言”包括情报检索语言,索引的编码语言等方面,“索引系统”包括关键词索引、保留上下文索引等传统的索引系统;也包括现代数据信息处理系统,如二次文献生成系统、管理信息系统等;还包括数字化的索引,如工程索引的CD光盘版,科学引文索引的扩展版等。

索引的编制是一项技术劳动,索引编制的好坏直接决定了索引的功用,从索引的编制步骤来看,索引编制可以分为选题、制定计划、编制类目表、分析文献、著录与编排、编辑加工等,但从索引的定义来看,即“索引是根据人们的一定需要,将有关文献的某类信息如篇目、语词、句子、人名、地名、书名、主题、事项及其它事物名称等分别摘录出来,注明出处,并按照一定的规律和排序方法组织编排起来供人们查检的一种检索工具”,其中的某类信息指的就是索引项,是索引结构的一部分,“一定的规律”指的是索引编制的标准和规则,而整个编制的过程则是索引的编制技术。因此,我们将索引编制分为结构、标准和技术三个部分。

索引属于二次文献,具有检索功能,起着指南和工具的作用,曾经索引主要用于检索,但信息时代同样赋予索引更多更丰富的功用。张琪玉教授曾说过21世纪的索引就是数据库,所以我们把数据库与联机检索单独提出作为索引的一项巨大的应用;同时索引作为二次文献,担当着二次文献最基本的提供信息服务的义务,提供的信息服务有图书馆咨询服务,科技情报服务等;索引也可以应用于知识管理,如档案管理、期刊管理、企业或个人知识管理等等,都可以借助索引对信息和知识实行有效有序整理;索引还是资源开发与利用的有利工作,如信息资源的开发编纂,期刊、档案的利用等;索引还可以应用于核心期刊的遴选、学科发展的评介、工作人员的绩效评估等。

另外,组织索引员的培训和索引活动是索引工作和索引学发展成熟的体现,设立这一类目就是为了考查索引学会成立20周年来,索引工作是否更专业化更职业化。

我们读取11498篇论文的题录信息,按照上述分类将它们分到各个类目下,得到每个类目所属的所有论文数,见表9至表13。而图3表示六个分析类目在同年段的论文变化情况,可以很清晰的看出,索引理论、索引编制和索引的应用在四个年段都占绝大部分比重,其中索引的应用所占比重最高,这正是因为索引是为用户提供服务的工具,其实用性和易用性都是作为工具的必要条件,索引的多种应用是学者研究的重点所在。其次,索引编制的论文比例一直在上升,说明学者越来越重视索引的结构、技术与标准的研究,特别是索引的编制技术,直接关系到索引实用功能的好坏。另外,索引的理论研究大体上看呈下降趋势,一方面是因为索引编制的研究论文逐年段上升,另一方面,索引本身是应用性很强的工具,理论研究便稍显薄弱。但理论用于指导实践,相关学者加强对理论体系的研究,能够对索引学的整体发展有更大帮助。最后值得注意的是相关学科的研究也呈逐年段下降的态势,表明索引学研究更专业更具独立性的同时,也与相关学科的关联逐渐减少。

3  类目分年段论文分布情况

5.1.2 研究索引理论的论文特点与变化

由表9可以看出,索引系统的研究是索引理论研究的重点,其总体论文量已超过半数,逐年段上升的同时在2006-2010年达到最高点,这是因为索引作为工具,最后呈现在用户面前的是系统的形式,不管是传统的主题索引、文摘索引,还是引文索引的电子版,学者只有更多的关注索引系统的研究,才能更好将索引做好。与索引系统所占比例相反的情况是索引历史的逐年段下降,从一个学科理论的发展来讲,这不失为一种好现象,说明我国学者将更多的注意力与关注点放在真正的理论体系建设上,不再一味回顾历史或写评论。但学科历史的研究并不是不重要,从表9中看到对历史的研究同时占到约三分之一的比重,因为适时综述学科研究,撰写学科带头人对学科的贡献等,可以衡量学科目前发展现状,对未来研究具有指导意义。另外,索引语言一直在13%的比例上下浮动,所占比重较其他两个分析单元稍低,这是因为索引语言主要由情报学的情报检索语言和计算机学科的计算机语言组成,这两种语言到20世纪90年代时已经发展了将近半个世纪,可以说发展较为成熟,尤其是计算机语言更是稳定变化很小。表中第一次的浮动是因为90年代后期我国兴起了大规模的研究分类主题语言一体化的热潮,众多成果呈现于科学界,而第四年段时到达顶点是因为21世纪初本体和大众分类法等新兴技术浮出水面,这势必带来分类法和情报检索语言的变革,从而影响到索引语言。

9  索引理论论文各年段频次变化

  

1991-1995

1996-2000

2001-2005

2006-2010

总体

历史

100(38.31)

150(35.54)

198(34.55)

218(28.5)

666(32.95)

索引语言

34(13.02)

58(13.74)

71(12.39)

108(14.11)

271(13.4)

索引系统

127(48.65)

214(50.71)

304(53.05)

439(57.39)

1084(53.64)

注:()中数字为该类目占本年段论文总数的百分比,下同

5.1.3 研究索引编制的论文特点与变化

索引结构包括款目、参照系统和字顺排列三部分,他们直接影响用户使用时的易用性和美观性,所以体现在研究论文上,结构一直占四分之一的比重,说明其受到一定的重视。上文已经阐述过索引编制对索引的重要性,而索引的编制技术对于索引的编制也是同等重要的,正如表10反映出的结果,技术这一分析单元在整个类目中所占比重最大,是索引编制过程中最重要的部分。这里,我们所指的索引技术是在索引的编制过程中应用的方法或技术,比如索引项和款目是怎样选定与排序的,以及计算机是怎样帮助编制索引的。表10中研究技术的论文比例连年攀升,这是因为索引学的发展与扩大,索引技术的研究从最初研究主题分析、款目的转换、自然与人工语言的选择的层面,拓宽到更广阔的空间,现在的索引技术是组织大型数据库的一种重要技术,帮助数据库组织和存储大量记录,实现高效检索。而与技术研究的火热势头相反的是标准研究的直线下降,这首先是因为标准的特殊性,尽管标准与法律一样,都会随着时代的发展进行改版,但标准却是经过众多业界专家精心制订,慎重颁布实施的;其次是因为索引学研究重心的转移,机械化自动化的编制和数据库研究带来的挑战,也使得标准的建立更加困难。但值得庆幸的是,经过20多年的努力与酝酿,2008年中国索引学会主持制订的国家标准《索引编制规则(总则)》,正式颁布并实施。这是中国索引事业的一件大事,标志着中国索引编制工作进入一个崭新的发展阶段。

10  索引编制论文各年段频次变化

  

1991-1995

1996-2000

2001-2005

2006-2010

总体

结构

53(23.45)

93(23.25)

212(24.36)

323(22.41)

681(23.18)

技术

147(65.04)

275(68.75)

601(69.08)

1098(76.19)

2121(72.21)

标准

26(11.5)

32(8)

57(6.55)

20(1.38)

135(4.59)

5.1.4 研究索引的应用的论文特点与变化

观察表11,我们可以发现七类索引应用研究的论文可以从其年段变化上分成两类。即除了应用于检索的论文和研究数据库与联机检索的论文呈增长态势外,其他分析单元都趋向递减,尤其是应用在评价上的文章下滑幅度最大。人们发现评价图书或期刊的质量可以把是否配有索引作为指标之一,或者遴选文章进入年度优秀论文索引时,索引被用于评价期刊和其他文献类型的功能便显现出来,尤其是美国的科学引文索引引入我国后,用影响因子和其他JCRESI中的指标作为评价依据的研究越来越多,体现在表中评价在第二年段的增长情况,但近年来作为便于科学研究出发点良好的SCI,在我国的发展却变了味,连加菲尔德本身都说“用期刊的影响来评价单篇的论文或某个作者存在固有的缺陷和危险”[12],类似的质疑引起了索引应用在评价上的研究,于是出现表中第三和第四年段的大幅下降。其次,索引用于检索是其素有的特点,新世纪的索引就是数据库的理论也深入人心,所以在表11中用于检索和数据库的研究是比重最大、论文数量最多的,其呈上升趋势,说明索引研究的重点在且将在这两方面上。另外,索引在信息服务、知识管理和资源开发与利用的应用虽呈下降趋势,但较平稳,且论文数量也较多,说明在这三方面逐年得到部分学者的青睐,但受到的重视还不够,索引事业要发展的更长久更宽广,那么索引研究就应该扩大研究领域和拓宽研究视角,面向21世纪的新兴技术和产业。

11  索引的应用论文各年段频次变化

  

1991-1995

1996-2000

2001-2005

2006-2010

总体

用于检索

255(35.66)

298(31.04)

693(37.28)

941(38.11)

2187(36.43)

数据库与联机检索

142(19.86)

214(22.29)

467(25.12)

617(24.99)

1440(23.99)

信息服务

70(9.79)

81(8.43)

162(8.71)

196(7.94)

509(8.48)

知识管理

72(10.06)

102(10.62)

175(9.41)

235(9.52)

584(9.73)

资源开发与利用

101(14.12)

131(13.65)

240(12.91)

343(13.89)

815(13.58)

用于评价

75(10.48)

134(13.95)

122(6.56)

137(5.55)

468(7.8)

5.1.5 研究索引事业和相关学科的论文特点与变化

为便于观察和篇幅限制等原因,我们将索引事业和相关学科的论文年段变化整合为图4。在图中单独看索引事业,我们可以看到培训和组织活动几乎呈反比例相关,但培训和组织活动并不是对立存在的,索引员的培训是组织活动的重要形式,因此1991年至2010年,两者整体研究的论文趋势是递增的,也是我国索引事业发展的体现。

分析一门学科与其他学科的关联,有助于把握该学科的独立性的同时,也可加强与其他学科的沟通[13]。而索引与相关学科的关联研究,我们仅选择与索引学有源头融合的学科——目录学、文献学以及图书情报学,图中我们看到以图书情报学论文数量最多,这是因为图书情报学近十几年来兼收并蓄,在研究核心内容、学科教育和事业发展上的蓬勃发展[14],使得学者更重视该领域的研究。目录学在20年来还对索引有一定数量的研究,但与文献学的相关研究最后消失了,说明索引学与文献学的关联渐远,逐渐脱离文献学的研究范畴。

4  索引事业和相关学科论文各年段频次变化

综上所述,通过内容分析法我们可以看到索引学目前的研究重点在索引系统、索引编制技术和对其应用于检索和数据库的研究,而对索引历史、索引标准和索引用于评价的研究则越来越少,并且应用方面还需要加强的有信息服务、知识管理和资源开发与利用的研究,另外,索引事业的相关论文的数量很少也是有待加强的方面,最后,索引学目前与图书情报学较目录学和文献学来说更相关,但也有渐渐远离的趋势。

5.2 论文关键词分析

关键词是作者从论文中摘出的能够反映文章基本内容的词。由于科研人员对同一内容或概念的掌握较为准确因而所使用的关键词也趋向一致[15]。一篇论文的关键词是其核心内容的浓缩和提炼某学科相关论文关键词的分布频次与特征能显示该学科的总体内容特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向、学术研究的重点与热点等[16]

5.2.1 高频关键词及其共现聚类分析

高频关键词是某个年段中出现频率最高的关键词,它能很好的反映某一领域的关注热点。我们对每年段论文关键词进行词频统计,对一些不规范的关键词进行简单处理(如将英文表达转换成中文),按顺序进行排列,得到12所列出的各阶段前44个高频词及出现频次。

12  各年段高频关键词

年段

高频关键词和频次

1991-1995

数据库25检索18情报检索13文献检索10关系数据库8学报7引文索引7Foxbase6计算机6检索系统6检索语言6情报检索系统6人工智能6软件6超文本5化学文摘5检索方法5科技期刊5数据结构5数据库管理系统5算法5引文分析5WPI4办公事务自动化4编码4计算机应用4检索工具4开发4联机检索4美国4期刊4矢量汉字4索引技术4索引结构4索引文件结构4统计分析4文献4信息检索4专家系统4ORACLE3标准化3调色板3高级语言3规范化3

1996-2000

数据库73科学引文索引44检索33文献检索30检索工具27信息检索26搜索引擎25Internet20查询20核心期刊18期刊18科技期刊17全文检索17图书馆15引文分析15工程索引14检索方法14空间索引14地理信息系统13面向对象13数据结构13管理12科技论文12引文索引12WWW11超文本11情报检索11文献计量学11FoxPro10SQL10查询优化10计算机10算法10优化10专利文献10存储过程9调色板9检索系统9评价9因特网9中国科学引文索引9多媒体8化学文摘8神经网络8

2001-2005

数据库184搜索引擎174科学引文索引143信息检索91地理信息系统88XML86检索72空间索引70中文社会科学引文索引55引文索引50工程索引49优化49影响因子48查询47网络47全文检索46引文分析43空间数据库38数字图书馆37R35空间数据35期刊35查询优化33算法32基于内容的图像检索31图像检索31文献检索31Oracle30数据仓库30索引结构26WebofScience25聚类25科技论文25社会科学25统计分析25图书馆25SQL24信息资源23检索工具22数据挖掘22向量空间模型22INTERNET21化学文摘21检索方法21

2006-2010

搜索引擎258数据库206科学引文索引145信息检索144XML125空间索引124中文社会科学引文索引120lucene106P2P104全文检索102优化84查询优化80查询78地理信息系统77空间数据库75R70数据挖掘67检索62引文分析60倒排索引54索引结构53本体52文献计量学47语料库46网络44移动对象44SQLServer43对等网络42潜在语义索引41中文分词41工程索引40向量空间模型39SQL38关系数据库38聚类38统计分析37空间数据36网格36算法35文献计量33性能优化33B+32影响因子31ORACLE30

从表12中我们可以看到,在每年段频次最高的5个关键词中,检索相关的词最多,这又一次证实了索引的检索功用。关键词随时间的丰富变化也可以让我们看到学科的发展,不仅有新词的涌现,如“科学引文索引”、“搜索引擎”的爆发式增长,还有新旧词的词频交替更换,“数据库”一词在前三年段拥有最高频次,在第四年段被“搜索引擎”取代,也反映了张琪玉教授“网络信息检索工具是新颖的索引”的论断[17]。但是,单从关键词的个数和频次变化上,不能准确反映研究热点和趋势,下面我们利用共词聚类法进行分析。

共词聚类分析法,通过文献计量和聚类统计的方法,计算主题词之间的联系密切程度(在同一篇文献共同出现的频率),把相互间在一块讨论得比较多的主题词聚集在一起形成一个个类团。学科领域的研究内容,便是由这些类团组成的[18]。因此,在此部分的研究中,我们分别统计上述各年段关键词在同一文章中出现的频次,转换成矩阵形式,并进行规一化处理,得到相异矩阵,导入SPSS18.0中进行聚类,得到图5至图8的聚类结果。

依据图中所示,可以按适当的阈值将高频关键词分类,如图5,得到的七个词团分别是:代表人工智能的词团1(包括的关键词有13153922),索引标准的词团218414443),索引技术的词团3243342),数据库的词团45351102026121438),索引编码的词团536407303221619212531),索引结构的词团6628348),信息检索的词团7323429112717379)

6得到七个词团分别为:代表空间索引的词团1181920223211),网络信息检索的词团26407278252613),引文索引的词团3374428411024),科技期刊评价的词团421331539122338),数据库与查询优化的词团530361342931942),国外索引的应用的词团65174216),文献检索的词团73354314)。

7得到八个词团分别为:代表引文分析的词团1934173525),文献检索的词团227433926),SCI的词团31031744),资源开发与利用的词团431322331119),空间索引的词团51820582129243230),数据库与查询优化的词团61237141232840),网络信息资源的词团7153842),计算机信息检索的词团8241664136)。

8得到七个词团分别为:代表引文分析的词团1719238),SCI的词团2313634340、检索),知识发现的词团31735392838),计算机信息检索的词团4293222),空间索引的词团510302014259),文本检索的词团6616151437212624),数据库与查询优化的词团712345422741111323344)。


5  1991-1995年高频关键词聚类情况

6  1996-2000年高频关键词聚类情况


7  2001-2005年高频关键词聚类情况

8  2006-2010年高频关键词聚类情况


由此得知,20年来有7个索引学的研究热点交替出现,他们是:

1)索引编制的研究,包括索引标准、索引结构、索引编码、索引技术,这些热点只在第一年段时出现,说明索引编制的研究在20世纪90年代初受到相当集中的重视,但索引学经过20年的发展,学者已不再仅仅将目光锁定在索引学本身,而将更多的精力放在拓宽索引学的研究上。

2)模式识别与智能系统相关的研究,包括人工智能和文本检索。20世纪五六十年代国外兴起的人工智能研究,带来了人类认识自然和自然界的新的飞跃,也标示着机器计算和人类并行发展时代的到来[19]。该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等,在图中的第一年段出现后,仅在第四年段出现,分析原因,是因为到本世纪初众多学者开始质疑国内研究人工智能20余年成果在何处,于是该领域的研究又一次成为焦点。

3)空间索引的研究,包括图6中的词团1和图78中的词团5。空间索引是指依据地理要素(或对象)的空间位置、形状或地理对象之间的某种空间关系,按一定的顺序排列的一种数据结构[20]。它在1996年以后的都出现在高频关键词中,说明空间索引的研究在我国90年代后期成为学者运用索引思想解决地理信息系统问题的一大热点。

4)信息检索相关的研究,包括信息检索,文献检索,网络信息检索,计算机信息检索。从图中也可以看出,信息检索相关的研究在20年中是贯穿始终的研究重点,它具有最多的高频关键词(如检索工具、检索方法、情报检索等),也同时在四个年段的词团中出现的次数最多(如网络信息检索和计算机信息检索都出现2次)。这是因为索引的一项重要功能就是方便快捷地供用户检索信息,20年来,索引在形式和技术上都有了重大突破,现今有依据索引思想发展而来的全文检索,有国际最大的联机检索系统DIALOG,都应用到了索引的技术和方法。在图中我们也可以看到基于内容的文本检索或图像检索出现在第三和第四阶段,其技术和结构的研究将会更复杂更精密,这也将会是未来研究的趋势。

5)数据库的相关研究,包括数据库和查询优化。图58中,与信息检索一样,数据库的研究也在每个年段都出现,它包括数据库查询语言的研究,如查询优化、SQLXML,也包括数据库应用软件类的关键词,如OracleSQLServerFoxPro。它不论在四个年段中稳定出现,还是在单个聚类图中的集中出现,都体现了我国学者对数据库研究的重视。20世纪80年代以来,我国索引越来越多地以数据库的形式出现,因此张琪玉教授提出现代的索引就是数据库的论断。数据库推动国索引工作的现代化,扩大了索引原理的应用领域,它的出现大大丰富了索引学的内容,它不仅是索引学目前的研究重点,而且是当前及以后索引事业发展的重点建设内容。

6)引文索引的研究,包括国外索引的应用研究,SCI的研究和引文分析等。上世纪五六十年代,美国情报学家加菲尔德创建引文索引,并将其创办成数据库版出版后,引文索引便成为世界上卓越的检索和评价工具,但到80年代我国学者才逐渐重视起来。聚类图中可以看到,在第二年段开始引文索引成为重点研究对象,同时,我国学者对国外索引最初的探索是对包括化学文摘和工程索引等检索工具的使用方法和功能评价层面的研究,最后热点逐渐转向SCI的研究和引文分析法的应用等。

7)资源开发与利用的研究,包括科技期刊评价和知识发现。这一热点所包含的高频关键词有科技论文、影响因子、数字图书馆、科技期刊、评价、聚类和数据挖掘等。上文已经阐述过索引可以应用在信息服务、知识管理和资源开发与利用中,事实上不管是信息还是知识都是一种资源,对其进行有效地加工整理,再提供服务,索引的功能便体现出来。综合查阅图5至图8,可以发现,这一热点的研究经历了从片面到全面,再到专业的变化,如在第二年段仅出现运用引文分析对科技论文和期刊进行评价,到了第三年段,便出现运用影响因子和SCI进行资源开发与利用,而第四年段,信息和知识的开发与利用更加细化,数据挖掘与聚类算法等便是知识发现的范畴。

5.2.2高频关键词词团的战略坐标分析

战略坐标是Law Bauin等于1988年提出的[21],用来描述研究领域内部联系情况和领域间相互影响情况。战略坐标为一个二维坐标,横轴表示向心度,纵轴表示密度,坐标的原点在两个轴的中位数或者平均数。其中:密度用来量度各个类别之内的主题词的紧密程度,它表示该类维持自己和发展自己的能力。向心度用来量度各个类别主题词与其他类别主题词之间的紧密程度。表示一个学科领域和其他学科领域的相互影响的程度,一个学科领域与其他学科领域联系的数目和强度越大,这个学科领域在整个研究工作中就越趋于中心地位。战略坐标可以概括地表现一个领域或亚领域的结构,它把每一个研究热点放置到坐标的四个象限中,从而描述各主题的研究发展状况[22]

根据共词聚类分析结果和高频主题词共现矩阵,我们计算了每个类别的向心度和密度,绘制出四个年段研究热点的基本框架(如图912),由此分析出目前我国索引学的现状和发展趋势。其中,原点在两个轴的平均数,密度Y轴和向心度X轴将整个图形分成四个象限,称图形右上角为第一象限,右下角为第二象限,图形左上角为第三象限,左下角为第四象限,四个象限分别代表不同的含义,下面我们对四个年段的战略坐标图进行具体分析。

9  1991-1995年词团战略坐标图

如果索引学从中国索引学会成立之日起作为一门学科而存在的话,那么我们设定1991-1995年这一阶段为索引学的初始期。第一象限中的类团有三个:人工智能、数据库与信息检索,它们的密度和向心度都是所有类团中最高的,表示它们不仅类团内成员间的关系密切,它们与其它类团的成员联系也很好。这说明两个问题,一是该时期这三个类团是学科研究的热点;二是这三个类团中的主题词是学科研究的活跃主题,在整个学科的研究中都受到关注,如数据库类团中的关键词有关系数据库、索引文件、检索系统、数据库管理、计算机应用等,他们在学科研究中都倍受关注,另外他们也与其余研究密切相关的,如人工智能类团中的关键词有超文本、专家系统、引文分析、人工智能,这些领域的研究都与索引学其他研究不可分割。

第二象限中的类团有索引标准和索引编码,他们是索引学核心的研究内容但研究不够成熟,这些类团的典型成员有标准化、规范化、矢量汉字、化学文摘、数据结构、算法、编码,它们在学科领域中表现活跃。但它们之间的联系比较松散,在该时期尚不能很好的自成一体,在类团的发展中容易被分解、演化成其它相关类团,其具有潜在的发展空间。

初始期在第三象限没有类团,说明该时期没有较成熟但属于边缘的研究。而第四象限的类团包括索引技术和索引结构,研究主题密度和向心度都较低,内部结构比较松散,研究也尚不成熟。这是因为在该时期,两个类团的成员(关键词)内部较为混乱,如索引结构的类团中包括学报、开发、索引结构、Foxbase,既有数据库有关内容又有资源开发有关内容,所以导致整个类团成为整个领域的边缘主题。

10  1996-2000年词团战略坐标图

第二阶段有多个新兴类团涌现,可以称其为混沌期。在第一象限的类团只有国外索引的应用一个,说明在这一时期我国索引学的关注重点较倾向于对工程索引、化学文摘以及科学引文索引的研究,由于这些研究是对国外索引的简介与评价,所以研究较成熟。第二象限包括了数据库和文献检索的研究,它们是索引学研究的重点内容,但在此时期还不够成熟,这是由于类团内部各关键词的联系还不够密切导致的,比如文献检索的类团包含检索、专利文献、化学文摘、图书馆四个关键词,其相互共现次数很少,说明四个关键词关联性不强。另外,文献检索位于数据库与查询优化的右边,也说明此时期文献检索与其他类团的关系比数据库研究的关系更密切。第三象限也只有唯一一个类团,即网络信息检索的相关研究,它具有所有类团中最高的密度,说明其类团成员之间联系相当紧密,网络信息检索这个领域已经形成了一定的研究规模,但尚未与其他领域建立良好的沟通关系,容易得不到长足的发展。第二阶段类团最密集的是第四象限,这些都是新涌现的类团,也正因如此,它们的研究尚未成熟,成为索引学研究的边缘领域。

11  2001-2005年词团战略坐标图

我们称第三阶段为调整期。从图中可以看到,大部分类团集中在密度Y轴附近,即各类团向心度接近所有类团向心度的平均数,说明此时类团之间关系较稳定密切,使得整个学科的研究也趋于稳定发展状态。第一象限中只有数据库的研究,它从上一阶段(图10)的核心但不成熟,演变成这一阶段的核心且成熟,说明数据库在这十年内一直受到重视。而混沌期的引文索引的研究在此阶段已经分化为引文分析及对SCI的研究,其中SCI独占第二象限,且向心度很大,说明其他类团的研究都与SCI有密切关系。四个类团在第三象限中,包括从边缘不成熟演变为边缘且成熟的空间索引研究,它经过十年的发展,已经初具规模,但仍与索引学其他子领域关系疏远;还有资源开发与利用、计算机信息检索和引文分析三个类团,也属于边缘不成熟研究。而在第四象限中的文献检索和网络信息资源研究,则是该时期索引学整个领域的边缘主题,这是因为新时代的到来,文献检索被赋予新的研究内容,如基于内容的检索等,使得检索面临新的攻关难题。

12  2006-2010年词团战略坐标图

第四阶段则为发展期,整个学科中不再有边缘不成熟的研究,虽然体现了学科的进步带动了所有子领域的发展,但从以上四图中可以发现,边缘不成熟的研究有可能会演变成成熟的或核心的研究,第四阶段缺少这样的类团代表着没有新出现的研究领域,不利于学科的进一步发展。图12中可以看出大部分类团都位于第一、第二象限,即学科的核心研究领域,尤其是空间索引和引文分析的研究,成为该时期的重点研究对象,研究也较成熟。第二象限中有三个类团,其中有新出现的知识发现词团,由于密度和向心度较低,它几乎在靠近第四象限的位置;也有从第三象限发展而来的计算机信息检索词团,以及SCI的研究,这些词团都是索引学的核心研究领域,但却因类团内部联系松散,导致研究不成熟。另外,数据库与查房优化的研究转变成边缘成熟的研究,是因为重点研究的对象变成空间索引和引文分析,部分研究精力的转移的原因。

综上所述,在四个时期,既有不同关键词团的新老交替,也有同一类团在不同时期的研究成熟度变化,还有子学科的分化与综合,这样我们可以清晰看出一个学科的发展演变过程。

索引学论文作者分析

研究者是推动学科发展的力量。探讨作者的著述规律及其数量关系,可以发现学科的高影响力作者和科学生产率,明晰学科的增长和内容的分布及其结构;也可预测科学家数量的增长和科学发展的规模及趋势等[23]

6.1 各年段作者数量分析

经过统计,20年来索引学论文总作者数15959人,19972人次,具体各年段作者人数分布见表13。对于作者总体发文情况可以作者平均发文量来表示,人均发文量=论文总数/作者数,可以看出,每年段的人均发文量都在0.7/人左右,表明每个作者写的文章不到一篇。这一点也可从合作度和合作率看出,合作度=作者总人次/论文总数,合作率=合作论文数/论文总数,他们是衡量作者合作情况的主要指标。表中每年段合作度都在1.5/篇以上,到了2006-2010年段高达1.85/篇,可以理解为每篇文章至少由2人合作完成。而合作率更是逐年上升的,在1991-1995年有三分之二以上的文章是作者独著的,到近期近70%的文章是合作文章。图13中展现了各年段不同作者数的论文分布情况,可以看出,由一人单独完成论文的情况占每年段最大比例,但却是逐年下降的;另外三种情况则不同,不仅呈逐年段上升趋势,而且到第四年段由一人独著、两人、三人及以上完成的论文几乎平分秋色。种种现象表明,索引学论文最初主要由作者独著完成,但越来越倾向于作者合作的方式,这是信息时代带给学科的影响,因而索引学是作者合作关系密切的学科,论文作者也越来越重视科学交流。

13  索引学论文作者分布

年段

1991-1995

1996-2000

2001-2005

2006-2010

总年度

作者数

1878

2762

4375

6944

15959

论文总数

1296

1895

3455

4852

11498

作者总次数

2035

3287

5654

8996

19972

人均发文量

0.69

0.69

0.79

0.70

0.72

合作度

1.57

1.73

1.64

1.85

1.74

合作率

28.55%

41.00%

58.44%

66.96%

55.79%

13  不同作者数的论文比例分布

6.2 特卡定律拟合分析

我们知道,特卡的时代,科学交流还很有限,他当年处理数据时,只统计了合作论文中的年长者,有限地考虑科学合作的情况,而对于索引学,已经证实了它是重在科学交流的学科,我们要验证其作者分布是否符合特卡定律,需要对数据进行处理,在这里,我们选择每篇论文的首作者(第一作者)作为分析对象。

我们按照处理特卡定律数据的一般步骤和规范标准,对其进行去除一定数量高产作者、建立数学模型、斜率求解、C值计算、预测、结果的检验等操作[24],将收集到的数据按表14进行计算,其中建立数学模型就是确定广义特卡定律中选定参数,广义氏定律公式为:F(x)=C/xa,分别得到Ca值,则拟合公式为F(x)= 0.75706/x2.508。按照同样的方式,可以求得其他各年段的C值和a值,再进行拟合结果的检验,具体见表15。可以看到,每年段的DMAX均小于KS检验值,认为具有较好的拟合度,说明每年段的第一作者分布都符合特卡定律。但C值和a值都不符合特卡当年估计的值,C值在0.71区间内,但a值均在2以上,且在第一、第二年段更高,这是不同时期一个学科在特卡定律中的不同表现。可以说,虽然我们只研究所有论文的首作者,但四个阶段的论文作者皆符合特卡定律,说明索引学已经在向科学结构中的成熟期发展,已有部分作者成为核心作者的形势突显出来。

14  2006-2010年段论文作者分布

x

y

X=lgx

Y=lgy

XY

XX

1

2708

0

3.432649

0

0

2

489

0.30103

2.689309

0.809563

0.090619

3

194

0.477121

2.287802

1.091559

0.227645

4

75

0.60206

1.875061

1.128899

0.362476

5

29

0.69897

1.462398

1.022172

0.488559

6

9

0.778151

0.954243

0.742545

0.605519

7

2

0.845098

0.30103

0.2544

0.714191

8

2

0.90309

0.30103

0.271857

0.815572

9

2

0.954243

0.30103

0.287256

0.910579

10

2

1

0.30103

0.30103

1

17

1

1.230449

0

0

1.514005

N=4  X= 7.790211954  Y= 13.905581  XX= 5.909280819  XY= 6.729163955

15  拟合特卡定律的KS检验结果

年段

作者总数

作者选取数

DMAX

KS检验值

C

a

1991-1995

1195

1178

0.03768

0.04715

0.97408

5.422

1996-2000

1655

1609

0.03635

0.04007

0.93604

4.207

2001-2005

2654

2630

0.02036

0.03164

0.79611

2.718

2006-2010

3513

3466

0.02689

0.02750

0.75706

2.508

6.3 核心作者分析

作者与论文数量分布具有均衡性,这可通过作者在一定时间撰写论文数量来衡量,称为“科学生产率”。表16列出了各年段发表论文最多的前二十二位作者,总体上高产作者的生产率逐年段增长。在20年中,从第一年段作者最多写5篇文献,发展到第四年段高产作者写出28篇文章,既有持续的高产作者,也有阶段性的多产作者;有许多老一辈专家的退出,也有一批批新人的出现。各年段的作者都是学科领域的精英,特别是总年度的高频作者更为我们所耳熟能详,为我国索引学研究做出了重要贡献,见表17

16  各年段高频作者分布

1991-1995

1996-2000

2001-2005

2006-2010

作者

频次

作者

频次

作者

频次

作者

频次

陈宝珍

5

夏旭

8

邹志仁

19

郝忠孝

28

黄焕如

4

冯玉才

7

王国仁

15

李建中

21

柯银花

4

姚天顺

7

张琪玉

14

孙殿柱

18

李成建

4

张琪玉

7

于戈

13

李延瑞

15

马海群

4

林鸿飞

6

施伯乐

12

刘国华

15

王辉

4

史杏荣

6

苏新宁

10

廖巍

14

杨宪泽

4

孙贞寿

6

程刚

9

王国仁

14

张琪玉

4

阳小华

6

胡运发

9

朱昌志

12

张效

4

张福炎

6

李建中

9

景宁

11

朱猛

4

范文田

5

刘云生

9

钟志农

11

陈茜

3

方平

5

周洞汝

9

邱均平

10

郭世远

3

黄进

5

冯玉才

8

周傲英

10

郭玉强

3

刘刚

5

景宁

8

姜春林

9

侯汉清

3

刘牧

5

刘南

8

李战怀

9

李颖

3

施伯乐

5

刘仁义

8

卢炎生

9

刘秉毅

3

王连纪

5

孟小峰

8

平保兴

9

乔和建

3

王彦祥

5

汪卫

8

刘则渊

8

宋林松

3

曾福兴

5

王斌

8

孙焕良

8

王怀惠

3

陈茜

4

徐光祐

8

王雅戈

8

相秀芳

3

韩志军

4

中国社会科学院外国文学研究所资料组

8

熊伟

8

杨均辉

3

侯汉清

4

李军

7

于戈

8

尹仙香

3

胡小

4

刘云

7

张磊

8

17  20年来高频作者分布

作者

频次

作者

频次

作者

频次

王国仁

32

苏新宁

16

姜春林

12

李建中

31

周傲英

16

史元春

12

郝忠孝

29

李延瑞

15

王珊

12

张琪玉

27

汪卫

15

袁培国

12

于戈

24

李军

14

朱昌志

12

冯玉才

23

廖巍

14

庄越挺

12

施伯乐

23

刘云生

14

林鸿飞

11

邹志仁

22

卢炎生

14

汤庸

11

景宁

21

孟小峰

14

吴玲达

11

胡运发

20

徐光祐

14

钟志农

11

孙殿柱

18

邱均平

13

周洞汝

11

侯汉清

17

孙焕良

13

 

 

刘国华

16

王斌

13

 

 

6.4 作者共被引分析

本文选择在20年中发文量大于10篇的前37位作者,即表17中所有作者。以中国学术期刊全文库武汉大学镜像站为统计源,利用该数据库引文检索中的著者同被引检索功能,在线检索出37位高产著者的同被引次数,共得到666组不同的数据。通过检索得到共被引矩阵,其中李建中、刘国华、李军、刘云生、王斌和王珊发文较多,但经验证这些名字对应了众多的不同作者,故予以删除,最后得到31人组成的矩阵。为消除由著者被引次数差异所带来的影响,首先要对数据进行标准化处理,再利用SPSS18.0对这31位高被引作者进行聚类和多维尺度分析,并用PAJEK进行可视化,最后得到了图14、图15和图16的结果。

1420年来我国索引学高产作者的聚类情况,31位作者细分为6个方向,这与实际情况比较相合。通过分析各作者发文的关键词,具体6个领域的内容为:XML数据管理与数据挖掘。XML是可扩展标记语言,上世纪末开始盛行,它不仅是依赖内容的技术,而且是简单易用的数据存储语言,是当前处理结构化文档信息的有力工具,可以说它是新时代索引的一种。王国仁和孟小峰教授是国内XML数据库研究较为深刻的学者;施伯乐和孙焕良在近期都着重数据库与知识库的研究,取得重要成效。②数据库系统理论与技术。这一部分包括众多的研究主题和各大名校的学者,如研究数据库理论与应用的胡运发、卢炎生、郝忠孝、周傲英等,也有研究信息检索工具的冯玉才、汤庸等,还有研究面向生物的数据挖掘的汪卫和林鸿飞等。③多媒体信息检索。该领域的研究内容目前包括对于数字音频音乐、图像和视频基于内容检索的一套完整的技术、多媒体低级特征提取和高级语义描述,以及、多媒体认证和水印等内容,吴玲达和周洞汝在该领域发表了大量有价值的论文,徐光祐则偏重于人机交互和多媒体计算的研究领域。④空间索引。国防科技大学的景宁教授和他的学生一起,为空间索引和移动对象数据的研究作出卓越的贡献。⑤应用索引技术的逆向工程。以孙殿柱教授为首的这三位作者均是山东理工大学研究先进制造技术的学者,他们近期将索引技术中的算法与结构等运用到逆向工程中,得到业界的认可。⑥科学计量与情报检索。最后这七位高频作者是索引学甚至情报学界的知名学者,其中南京大学的邹志仁、苏新宁和袁培国长期从事情报分析的研究,邱均平和姜春林分别是武汉大学和大连理工大学在科学计量与评价研究的代表人物,张琪玉和侯汉清则在检索语言学领域赫赫有名,为情报检索语言、自动标引、索引编制等领域的发展作出杰出贡献。

14  高频作者聚类结果

15的结果部分体现了图14的内容,可以看出,作者之间的距离表示了他们的相似程度,距离越近说明越相似。从二维图可明显看出,右下方聚集了科学计量与情报检索研究的作者;在右上方则是关于应用索引技术做逆向工程研究的团队;而与数据库有关的研究在图形左侧,按图14的团队分布体现得不明显,这从二维图的拟合系数也可以看出来,stress>0.20.6<RSQ<0.9,说明拟合程度一般。研究XML数据管理与数据挖掘的作者主要分布在左上角,研究空间索引技术与应用的作者主要处于左上角靠中部的位置,这是两个相对集中的领域,也是因为作者群中作者数量较小,研究主题集中的原因;而对于数据库系统理论与技术的研究,作者分散在左半部及右上角的部分区域,分析原因,一方面是因为此领域本身包含众多子领域或主题,另一方面是因为作者在不同时期所关注研究的主题不同,即研究兴趣的不同,导致了图中分布广泛的特点;而分布最不集中的是研究多媒体信息检索的三位学者,他们零散位于三个象限中,这不仅源于三位学者来自不同的区域不同的学校,而且因为目前基于内容的图像检索等多媒体检索技术研究不够成熟,还处于发展阶段。

15  高频作者多维尺度分析图

PAJEK软件可以对共被引原始矩阵进行可视化处理,使得作者之间的共被引强度获得较直观的体现。这也弥补聚类分析与多维尺度分析的缺陷,因为他们只是表现作者共被引的分布,但只是相似性的体现,他们之间共被引的强度大小无法具体展现而可视化的网状结构较好地展现了作者之间的共被引强度。例如张琪玉和侯汉清、邱均平和苏新宁、施伯乐和汪卫、王国仁和于戈之间连线最粗,说明他们之间的共被引强度最大,强度越大,说明作者之间的研究主题或作者关系越接近,如张琪玉和侯汉清都是我国情报语言学界的专家,所以同时引用他们的文章最多,邱均平和苏新宁致力于研究信息计量,因而同被引次数也较高;施伯乐和汪卫、王国仁和于戈则是由于他们分别是复旦大学和东北大学计算机研究方面的教授,同样联系紧密。另外,图中节点大小代表作者的中介中心度大小,具有最高中介中心度的节点是控制网络中其他节点之间信息流的关键点。假如将具有最高数的研究者从合作网络中移走,那么将会增加其他大多数研究者之间的最短距离,影响信息传输的速度[25]。图中中介中心度较大的节点有孟小峰、苏新宁、施伯乐、周傲英、邱均平和冯玉才,他们不仅自身是各个学校各个专业领域的领头人,还是与其他学科保持良好沟通交流的枢纽。因此,这些中介中心度大的作者在合作网络中起着沟通和促进信息流通的枢纽作用,有利于不同学术群之间的信息和思想的交流

16  高频作者共被引网络图

结论

通过对20年来的索引学的论文数量与期刊分布、主题内容与关键词分析以及科研作者的分析,可以得到以下结论:

(1) 索引学研究论文较符合文献信息增长模型的逻辑增长模型。从1991年中国索引学会成立开始,索引学文献一直以快速增长的趋势发展,到近期论文数量稳定增长,可以说索引学目前处于大发展与稳定发展的过渡期,其较符合逻辑增长模型便可预测未来短期内学科论文的发展情况。

(2) 索引学研究期刊整体上符合布拉德福的文献集中与离散定律,分年段的期刊数量也较符合布氏定律。索引学作为传统与现代相结合的学科,并没有丢失一般学科的普遍性,同样遵循文献信息的集中与离散分布规律,很好的控制着本学科期刊与论文的规模,这种表现对索引学的进一步科学发展具有参考价值。

(3) 通过内容分析法和共词分析法我们知道,传统的索引理论与索引编制的研究仍然占据重要地位,同时索引的应用研究也是索引研究中的重要内容,研究的热点分布在多个方面,包括索引编制的研究、模式识别与智能系统相关的研究、空间索引的研究、信息检索相关的研究、数据库的相关研究、引文索引的研究和资源开发与利用的研究,其中目前较为成熟的核心领域包括数据库及其技术的研究、信息检索的研究、引文索引的研究和空间索引的研究,并可以预见在信息时代的推动和促进下,索引学将更注重实用性与技术的发展,更倾向于发展自身独立学科特色,并结合引入其他学科的新理论和新方法,更好地应用于其他学科。

(4) 索引事业在中国索引学会的带动下,已经逐步形成自己的作者群,核心作者比较集中,多倾向于作者合作的方式撰写论文,经验证每年段均符合特卡定律,这对科学组织科研生产团队,加快学科发展速度都起到积极作用。索引学20年来新老交替的作者团队,几乎都是各大名校的学科带头人,他们为索引事业的发展作出巨大贡献。

 

参考文献

张琪玉.图书内容索引编制法——写作和编辑参考手册[M].北京:化学工业出版社,2006,1-2

张琪玉.张琪玉索引学文集[M].北京:国家图书馆出版社,2009,34-35.

邱均平.信息计量学[M].武汉:武汉大学出版社,2007,51-56.

刘湘生.中国分类主题词表.第二卷,主题词--分类号对应表.(),M-T[M].北京:华艺出版社,1994.

邱均平,杨思洛,刘敏.改革开放30年来我国情报学研究的回顾与展望()——情报学研究论文的年度分布与期刊分布分析[J].图书情报研究,2009(2):1-7.

6 Price Derek de Solla. Little Science, Big Science[M].New York:Columbia University Press,1963.

张琪玉.关于索引学研究和索引工作开展的设想与建议[J].江苏图书馆学报,1993(1):3-7.

8马子雷.中国期刊数量超出版社报社,如何应对数字化冲击[N/OL].中国文化报(2010-12-17)[2011/4/25]http://www.chinadaily.com.cn/hqgj/jryw/2010-12-18/content_1413570.html.

庄守经.中文核心期刊要目总[M].北京:北京大学出版社,1992.

10 邱均平,邹菲.关于内容分析法的研究[J].中国图书馆学报,2004(2):12-17.

11 侯汉清,杨淑娟.国外索引学文献的统计分析[J].图书馆理论与实践,1994(1):42-45.

12 Eugene Garfield. The History and Meaning of the Journal Impact Factor[J].JAMA, 2006,295:90-93.

13 王丽娟,陈文勇.情报学与相关学科关系再认识[J].情报理论与实践,2010(12):1-3.

14 叶继元.图书情报学(LIS)核心内容及其人才培养[J].中国图书馆学报,2010(6):13-19.

15 邱均平,周春雷,杨思洛.改革开放30年来我国情报学研究的回顾与展望()——情报学的发展阶段及趋势分析[J].图书情报研究,2009(3):1-9.

16 马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006(2):163-171.

17 张琪玉.中国索引事业:当前格局与问题[C].2005年中国索引学会年会暨学术研讨会论文集,上海,2005.

18 钟伟金,李佳.共词分析法研究()——类团分析[J].情报杂志,2008(6):141-143.

19 胡扬,桂卫华,蔡自兴,叶华文.关于人工智能几个问题的思考[J].计算机科学,2010(10):173-174.

20 陶志刚,赵敬道,建成.地理空间索引技术研究[J].测绘学院学报,2002(1):73-75.

21 Law J,Bauin S,Courtial J-P,et al.Policy and the mapping of scientific change:A co-word analysis of research into environmental acidification[J].Scientometrics,1988,14(3-4):251-264.

22 杨颖,崔雷.基于共词可视化的学科战略情报研究[J].情报学报,2011(3):325-330.

23 邱均平,杨思洛,周春雷.改革开放30年来我国情报学研究论文的作者分析[J].情报学报,2009(4):626-633.

24 马悦英.分形论在情报学中的应用[J].图书情报工作,1998(5):12,15-16.

25 Otte E, Rousseau R. Social network analysis: A powerful strategy,also for the in formation sciences[J].Journal of Information Science,2002(6):441-453.

 

邱均平  教授,博导,武汉大学中国科学评价研究中心主任,中国索引学会副理事长。