近五年来国内外索引研究的进展与趋势 邱均平 曾 倩
发布时间:2018-09-25  浏览次数:9

近五年来国内外索引研究的进展与趋势

邱均平   

(武汉大学信息管理学院  430072

    为了深入了解国内外在索引领域的研究进展,本文应用文献计量法和内容分析法,对2005-2009年间国内外研究索引的文献进行统计分析,包括期刊分布、作者分布、主题分布三个方面,总结当前国内外索引研究的热点,并预测未来研究中的发展趋势。结果表明,国外索引领域的核心期刊已基本形成,而国内索引领域的核心期刊群尚未稳定;国内外目前都尚未形成稳定的核心作者群;在研究热点方面,国内外情况有所差异,但发展趋势趋于一致。

关键词  索引  文献计量  内容分析  期刊分布规律  作者分布规律  研究热点  研究趋势

 

Abstract: Tobetter understand the progresses in the field of indexes at home and abroad, byusing the methods of bibliometrics and contentanalysis, the paper makes a statistical analysis of the literatures on indexesbetween 2005 and 2009. The analyses include three aspects, distribution ofauthors, distribution of journals and hot topics. Finally, the authorssummarized the hot topics in current researches and predicted the trends infuture researches on indexes. The core journals on indexes are formed inforeign countries while core authors not formed yet either at home or abroad.It differs at home and abroad as for the hot topics, but the trends areconsistent.

Keywords: IndexingBibliometrics Content analysis Distribution of periodicals Distribution of authors Hot topics Research trends

 

索引是指按一定的系统组织起来的记录和指引文献事项或单元知识的检索工具[1]。为了了解国内外学者在此领域的研究情况,本文运用文献计量的方法对国内外研究情况进行了比较与分析。

1  研究方法与数据来源

本文选取了时间范围为20051月至200912月的国内外研究索引的期刊文献作为数据源,主要采用文献计量法和内容分析法进行研究。

1.1  研究方法

文献计量学为我们提供了描述与预测科学技术现象和规律的相关理论方法,文献计量法是运用数学和统计学等方法,定量地分析一切知识载体的交叉科学,它是集数学、统计学、文献学为一体,注重量化的综合性的实用的知识体系[2]。

内容分析法是一种对研究对象的内容进行深入分析,透过现象看本质的科学方法。应用这一方法,对文献的特定主题内容进行定性和定量剖析,可以揭示该主题内容的实质,系统、客观地把握其研究动态和趋势[3]。关键词是指出现在文献的篇名、摘要和正文中,用以表达文献主题概念的、有实际意义的自然语言词汇[4]。该学科相关文献的关键词的分布频次与特征,能显示该学科的总体内容特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向、学术研究的重点与热点等。因此,我们可以将内容分析法和以关键词为基础的词频分析法、共词分析法相结合,即基于词频统计和共词分析的内容分析法,应用于分析界定国内外索引研究的重点领域及其发展变化趋势。

1.2  数据来源

本文以CNKI(中国知网)中的中国期刊全文数据库为中文文献统计来源,以题名或关键词包含“索引”为检索条件,剔除产品索引、公司索引、目次索引、论文索引、作者索引、关键词索引、主题索引、通讯等非学术文献或不相关文献,以及重复录入的文献和无关键词文献后,共筛选出1010篇中文文献。外文文献则以CSA(剑桥科学文摘)中的LISALibrary and Information ScienceAbstracts)数据库为统计来源,以题名或关键词包含“index”或“indexes”、“indexing”并且“受限于:仅期刊文章”为检索条件,经筛选后得到国外文献1077条。本文检索时间截止到2010718

2  数据分析

2.1  期刊分布情况分析

英国著名文献学家布拉德福最早发现文献分散规律,并形成了有名的“布拉德福定律”。本文依据布氏定律对国内外索引研究的相关论文在期刊中的分布情况进行区域分析,即将期刊按照相关论文载文量的多少以渐减的顺序排序,分别将国内外刊载索引领域研究论文的相关期刊划分成三个区。

2.1.1  外文期刊分布情况

LISA中收录的1077篇外文文献分散在266种期刊上,平均每种期刊载文量(x)为1077/2664.05篇,标准差(s)为10.58,离散系数(Vs=s/x)为2.61

根据布氏定律,按照载文量的多少,将刊载索引研究领域论文的相关期刊分成三个区:①刊载18篇及以上的期刊;②刊载小于18篇而大于等于5篇相关论文的期刊;③刊载14篇相关论文的期刊。其结果列于表1中。经过分析,期刊的各区相关论文数大体相等,而相继各区的期刊数为7:46:213

1 外文期刊分区表

分区

载文数

期刊数

论文数

1

18143

7

337

2

517

46

339

3

14

213

380

 

通过区域分析法得出索引研究领域外文核心期刊是排名前7位的期刊,如表2所示。但此结果受 LISA收录范围的影响,因为LISA收录的是经过筛选的、数量有限的期刊,该领域的很多其他期刊未被收录其中,不在本文统计之列。

2 外文核心期刊及载文量

序号

期刊名称

载文量

1

Scientometrics

143

2

Journal of the American Society for Information  Science and Technology

75

3

Reference Reviews

34

4

Information Processing and Management

27

5

Journal of the Medical Library Association (JMLA)

21

6

Journal of Information Science

19

7

Online Information Review

18

 

2.1.2  中文期刊分布情况

中国期刊全文数据库中收录的1010篇中文文献分散在370种期刊上,平均每种期刊载文量(x)为1010/3702.23篇,标准差(s)为3.33,离散系数(Vs=s/x)为1.45

按照载文量的多少,分成的三个区为:①刊载5篇及以上的期刊;②刊载小于5篇而大于等于2篇相关论文的期刊;③刊载1篇相关论文的期刊。其结果列于表3中。相继各区的期刊数为32:100:238

根据区域分析法的结果,索引研究领域中文期刊的核心区包括32种期刊,如表4所示。

3 中文期刊分区表

分区

载文数

期刊数

论文数

1

559

32

330

2

24

100

257

3

1

238

238

 

根据以上分析,对比发现,第一分区即核心区中,外文期刊有7种,每刊载文数均18篇以上,最多的达到143篇;而在同一区的中文期刊有32种,且以计算机领域的期刊为主,每刊载文数在5篇以上最多的仅59篇。由此可见,国外刊载索引领域论文的期刊更集中。国内索引研究分析论文在期刊中的分散规律相对更加明显,刊载该领域论文的期刊更广泛,但这些期刊的主题主要集中在计算机技术领域。

4 中文核心期刊及载文量

序号

期刊名称

载文量

序号

期刊名称

载文量

1

中国索引

59

17

计算机应用与软件

10

2

计算机工程

54

18

情报科学

9

3

计算机工程与应用

41

19

计算机与数字工程

8

4

计算机科学

31

20

科技情报开发与经济

8

5

计算机应用研究

29

21

测绘科学

7

6

计算机应用

26

22

计算机工程与设计

7

7

小型微型计算机系统

25

23

图书馆理论与实践

7

8

计算机研究与发展

21

24

微电子学与计算机

7

9

电脑知识与技术

15

25

情报理论与实践

7

10

微计算机信息

15

26

图书情报工作

7

11

软件学报

14

27

计算机技术与发展

6

12

计算机工程与科学

13

28

计算机与现代化

6

13

计算机学报

12

29

燕山大学学报

6

14

武汉大学学报(信息科学版)

11

30

现代情报

6

15

现代图书情报技术

11

31

大学图书馆学报

5

16

华中科技大学学报(自然科学版)

10

32

地理与地理信息科学

5

 

此外,外文期刊刊载该领域论文的标准差为10.58篇,离散系数为2.61,而该领域中文期刊的标准差为3.33篇,离散系数为1.45。由于外文期刊载文量的离散系数远大于中文期刊载文量的离散系数(2.61>1.45),所以外文期刊的载文量更不平均,载文数量差距更大(最大载文量143篇,而最小载文量为1篇,相差142篇),中文期刊载文量差距则相对较小。

2.2  作者分布情况分析

本文从核心作者和合作者两个角度对国内外索引研究文献的作者分布情况进行了分析。

普赖斯在1969年发表的《小科学,大科学》一书中指出:撰写全部论文一半的高产作者的数量等于全部科学作者总数的平方根,这就是著名的普赖斯定律[5]。根据普赖斯定律,我们分别分析了外文文献作者和中文文献作者中的核心作者。

同时,科研是一项集体活动,一篇论文有适量的合作者,可以充分发挥群体智慧,可以在知识结构等方面相互取长补短,提高研究成果水平。科研合作也是科学研究复杂化、交叉化和高深化的必然要求。我们应用合作度与合作率两个计量指标来分析索引领域内作者合作程度。

2.2.1  外文作者分布情况

外文数据库中的1077篇索引领域的论文是由2099人次作者和1711位不同作者撰写的。

根据普赖斯定律,核心作者应完成所有论文总数的一半,核心作者最低发文数m的值为m=0.749×nmax1/2,其中nmax是指发文量最高的作者发表的论文数量。外文文献中,nmax24,所以m取整数为41711位作者中,发文4篇以上的作者共40人(前20位如表5所示),接近作者总数的平方根4117111/241);发文量共248篇,占论文总量23.0%,小于论文总数的一半。因此,国外索引领域的研究暂未形成稳定的核心作者群。

5 外文核心作者的前20位及其发文量

序号

作者

发文量

序号

作者

发文量

1

Egghe*, L.

24

11

MacLeod*, Roddy

6

2

Leydesdorff*, Loet

18

12

Markpin*, T.

6

3

Rousseau*, Ronald

14

13

Sagar, Anil

6

4

Jacso, Peter

12

14

Sombatsompop*, N.

6

5

Kumar, Vijai

9

15

Ure, Catherine

6

6

Tsay*, Ming-Yaeh

9

16

Glanzel*, Wolfgang

5

7

Gupta*, B. M.

7

17

Guan*, Jiancheng

5

8

Kademani*, B. S.

7

18

Ho*, Yuh-Shan

5

9

Daniel, Hans-Dieter

6

19

Surwase*, Ganesh

5

10

Kennedy, Marion

6

20

Thelwall, Mike

5

 

合作度与合作率两个计量指标反映了某学科领域内作者合作智能的发挥程度,数值越高,合作智能发挥越充分。合作度=(一定时期内相关文献)作者总人次/(一定时期内相关文献)论文总数;合作率=(一定时期内相关文献)合作论文数/(一定时期内相关文献)论文总数。

外文文献的平均合作度为2099/10771.95。由于1077篇文献中有1070篇由2个以上的作者合作完成,所以平均合作率为1070/107799%

2.2.2  中文作者分布情况

中文数据库中的1010篇论文由2418人次作者和1921位不同作者撰写。中文文献中,nmax9,所以m取整数为21921位作者中,排名在前44位(19211/244)的作者发文量都大于等于3发文共225篇,占总论文量的22.3%,小于论文总数的一半。因此不符合普赖斯定律,中文核心作者群也尚未形成。这里仅列举出发文量在5篇以上的前26位作者及其发文量(表6)。

中文核心作者中,前10位作者的发文量在6篇以上,其学科背景分别为:计算机科学与技术:卢炎生、施伯乐、郝忠孝、王国仁;情报学:侯汉清、邱均平、张琪玉;图书馆学:王雅戈、刘国华、平保兴。可见,发文量最多的作者主要来自计算机科学领域,为索引技术的研究与发展做出了贡献;其次是来自情报学和图书馆学领域的作者,他们则致力于索引理论与应用的研究。

6 中文核心作者中的前26位及其发文量

序号

作者

发文量

序号

作者

发文量

1

卢炎生

9

14

吉根林

5

2

施伯乐

9

15

景宁

5

3

郝忠孝

8

16

李建中

5

4

侯汉清

8

17

廖巍

5

5

王国仁

8

18

林坤辉

5

6

王雅戈

8

19

潘鹏

5

7

邱均平

7

20

汤庸

5

8

张琪玉

7

21

王斌

5

9

刘国华

6

22

吴飞

5

10

平保兴

6

23

吴玲达

5

11

蔡益朝

5

24

徐焕

5

12

贺玲

5

25

杨冬青

5

13

胡运发

5

26

庄越挺

5

 

中文文献的平均合作度为2418/10102391010篇文献中有727篇由2个以上的作者合作完成,平均合作率为727/101072%

从国内外核心作者的分析结果可以看出,国内外索引研究都没有形成稳定的核心作者群,核心作者没有在该领域起到足够的学科带头作用,索引领域的研究力量还是不足的。

中文文献的合作度(2.39)虽略大于外文文献的合作度(1.95),但由于中文文献的合作率远小于外文文献的合作率(72%<99%),且中文文献的合作作者数最多的仅为6个,而外文文献的合作作者数最多的高达10个,因此,国外对索引研究的合作性更强,这也是国外索引研究更为成熟化的一种体现。

2.3  研究热点分析

词频分析法是利用能够揭示或表达文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献的计量方法[6]。实践证明,利用词频分析法和共词分析法可以探究某领域的研究热点和发展趋势。本文拟利用该方法分析国内外索引领域的研究热点与趋势,并对二者进行比较探讨。通过对近五年国内外研究论文的关键词统计,并对其进行同义词合并以及无关词删除等处理,共获得外文关键词1187个,中文关键词2247个,分别对它们进行词频统计,按照频次高低排序所得的前20位高频词的统计结果如表7所示。

2.3.1  外文文献研究热点

对表7中列出的前20位外文高频关键词,我们统计出它们在1077篇学术论文中两两同时出现的频次,形成一个20×20原始共词矩阵。该矩阵为对称矩阵,对角线上的数据为该词出现的频次,非对角线上的数据表示同时使用了这两个关键词的论文数。由于原始共词矩阵反映的是共现频次的观察值,而共现频次的多少直接受到两个关键词各自频次大小的影响。为了消除原始共词矩阵绝对值差异的影响,真正揭示关键词之间的共现关系,我们利用表示关键词共现相对强度的Salton系数[7]对矩阵进行标准化处理,得到标准共词矩阵如表8

7 近五年国内外索引研究论文的词频统计情况(前20位)

序号

关键词

频次

序号

关键词

频次

1

索引

180

1

Scholarly publications

210

2

空间索引

61

2

Bibliometrics

142

3

XML

51

3

Citation analysis

120

4

数据库

40

4

Online information retrieval

112

5

索引结构

35

5

Periodicals

106

6

倒排索引

25

6

Web sites

97

7

信息检索

22

7

Articles

85

8

移动对象

19

8

World Wide Web

79

9

高维索引

18

9

Online databases

77

10

潜在语义索引

18

10

Searching

77

11

时空索引

18

11

Citation indexes

72

12

空间数据

17

12

Scientometrics

66

13

空间数据库

17

13

Indexes/Indexing/Indexers

58

14

搜索引擎

17

14

Evaluation

56

15

引文索引

17

15

Search engines

52

16

R

16

16

USA

52

17

查询

16

17

Science Citation Index

39

18

检索

15

18

Medicine

38

19

B+

14

19

Performance measures

38

20

聚类

14

20

Science and technology

38

 

8 外文关键词标准共词矩阵(部分)

 

Scholarly  publications

Bibliometrics

Citation  analysis

Online  information retrieval

Periodicals

Scholarly publications

1

0.115818

0.031497

0

0

Bibliometrics

0.115818

1

0.007661

0

0.008151

Citation analysis

0.031497

0.007661

1

0

0.008867

Online information retrieval

0

0

0

1

0

Periodicals

0

0.008151

0.008867

0

1

 

利用关键词标准共现矩阵,使用SPSS11.5中的多维尺度分析,可以得到关键词的战略坐标图,它可以比较直观地表现一个领域的研究结构。它以所有二维数对(向心度、密度)的平均值为原点,从而将所有因子分为四个象限,落入每个象限的因子都具有不同的含义。战略坐标图是以向心度和密度为参数绘制成的二维坐标系,其中,X 轴为向心度(Centrality),Y 轴为密度(Density)。密度被用于衡量因子之间的内部联系的强度,它表示该因子维持自己和发展自己的能力。向心度被用于衡量一个因子和其他因子之间相互联系的程度。向心度越大,即一个因子和其他因子之间联系越紧密,则该因子在此学科中就越趋于中心位置[8]。

由外文文献关键词标准共现矩阵经过多维尺度分析得到的战略坐标图如图1

1  外文关键词战略坐标图

由图1可以看出:第一象限的PeriodicalsScientometricsCitation indexes向心度和密度均较高,即内部联系紧密并处于研究网络的中心。第四象限的ScienceCitation IndexCitationanalysisScholarlypublications的研究,内部结构松散,研究尚不成熟(密度较低),但向心度较高,与网络中其他研究结合紧密,说明该领域有进一步发展的空间。第二象限的SearchingOnline information retrievalWeb sitesSearch engines,向心性不高,在整个研究网络中处于边缘,但其主题领域内部链接紧密,题目明确,研究趋向成熟。第三象限的主题包括Performance measuresEvaluationMedicineScience and technologyOnline databases,距离研究核心比较远,同时自身研究的密度也不够高,说明这些研究不成熟,也暂未成为核心内容。

2.3.2  中文文献研究热点

根据中文文献中关键词的共现频率,经过标准化得到的标准共词矩阵如表9所示。由此矩阵经过多维尺度分析,可得出中文关键词战略坐标图如图2

根据图2所示的各研究因子战略坐标位置,可以得出:第一象限的索引结构、信息检索、检索、数据库、B+树等主题处于研究网络的中心,且研究趋于成熟。第四象限的搜索引擎、潜在语义索引、引文索引、高维索引、倒排索引的研究尚不成熟,但与其他研究结合紧密,可能进一步发展成为未来研究中的热点。第二象限的时空索引、空间索引和移动对象处于边缘,但研究趋向成熟。第三象限的空间数据、空间数据库、R树、聚类的研究不成熟,也不是核心内容。

9 中文关键词标准共词矩阵(部分)

 

索引

空间索引

XML

数据库

索引结构

索引

1

0.202235

0.291549

0.113519

0

空间索引

0.202235

1

0.017929

0

0.021642

XML

0.291549

0.017929

1

0.044281

0.023669

数据库

0.113519

0

0.044281

1

0

索引结构

0

0.021642

0.023669

0

1

 

2  中文关键词战略坐标图

3  国内外研究进展与趋势比较

综上所述,国内外在索引领域的研究表现出明显的差异性,但发展趋势基本趋于一致。具体表现在以下四个方面:

第一,国内外对电子索引技术的研究日益成熟,在国内正处于研究网络的中心,而在国外已逐渐处于网络边缘。网络化时代为索引及其研究带来了挑战和机遇,信息技术的发展、网络信息标引的需要,对索引技术的研究起到了重要的促进作用。图1和图2所示的国内外研究热点战略坐标图中,SearchingOnline information retrievalWeb sites以及信息检索、索引结构、数据库等与信息技术密切相关的主题都表现出较高的密度,研究都趋于成熟。但此类研究在国外已不再处于中心位置,研究文献的数量也基本稳定;而在国内仍有增长的趋势。从国内外文献在期刊分布上表现出的差异也可以看出,国内的研究文献大量分布于计算机领域的期刊,而国外的期刊领域则更加多样化,这一现象也进一步验证了从战略坐标图中所得出的结论。这与国内信息技术研究比国外起步稍晚的原因是分不开的。

第二,传统的索引理论的研究仍然占据重要地位。在网络化时代,一方面,电子图书、电子期刊等新媒体的出版量日益增大,出版环境发生了巨大变化,带来了大量的网络信息标引的需求;另一方面,信息技术的日益成熟也引起了研究者的重视,将研究人员的视野推向现代化的索引研究,在一定程度上冲击了传统文献索引的研究。然而,纸质出版物仍然有相当的数量,而且,从本质上说,传统文献索引的基本原理和方法同样适用于网络信息的组织和排序[9],对各类文献索引的研究仍然是其他索引研究的基础,任何索引研究都必须以相关文献为载体[10]。因此,国内外学者对传统索引理论的研究仍然非常重视。相对而言,国外学者的理论研究更具全面性和系统性。

第三,索引的应用研究将成为索引研究中的重要内容,国外的应用研究相对国内更为广泛。国内对索引应用的研究主要集中在信息检索、引文索引等方面,其研究已基本成熟;受到网络化、信息化的影响,近年来也逐渐开始应用于搜索引擎的研究,从图2可以看出,对搜索引擎的研究虽尚未成熟却已成为核心的主题之一;其他方面的应用尚处于起步阶段。而国外对索引的实践与应用的研究则深入到了引文分析、文献计量学、科学计量学、评价、绩效评估、医学等多个具体领域,其中引文分析、文献计量学、科学计量学已处于研究网络中的中心位置,对科学计量学的研究已经具有较高的成熟度,而评价、绩效评估、医学等领域的应用也初具规模,可能成为未来研究热点中的重要部分。

第四,与其他学科相结合开展研究可能成为未来索引研究的发展趋势之一。在索引研究的过程中注重与其他学科的结合,一方面可以引入新的理论与方法,如社会学、本体、知识地图、元数据等,为索引理论和方法的研究带来新的视角;另一方面,索引的方法与研究成果也可以应用于其他学科,为促进其他学科研究的发展做出贡献。在本文分析的文献中,中文文献主要体现了“引入”,例如部分文献将计算机学科的最新进展引入到了索引技术和方法的研究。外文文献则更多地体现了后者,将索引的方法应用到学术出版、评价、计量乃至医学、物理、化学、经济学等学科领域的研究中。

4  结束语

本文运用文献计量法和内容分析法对近五年国内外索引领域的文献进行了对比分析。国内外在索引的研究过程中都受到了网络化、信息化的重要影响,但传统的理论研究仍然占据着不可忽视的主导地位,此外,国外更为重视与其他学科相结合开展索引的应用与实践的研究。本文冀望通过总结当前索引研究的进展和未来发展趋势,为推动我国索引领域的研究提供一定的参考和启示。

 

参考文献

1  彭斐章.目录学概论[M.北京:中华书局,1982:35

2  邱均平.文献计量学[M.北京:科学技术文献出版社,1988:440-446

3  邱均平,邹菲.关于内容分析法的研究[J.中国图书馆学报,2004(2):12-17

4  王思哲.我国学术期刊关键词标引质量探析[J.延安大学学报(社会科学版),2001(3):97-99

5  邱均平.信息计量学[M.湖北:武汉大学出版社,2007

6  马费成,张勤.国内外知识管理研究热点――基于词频的统计分析[J.情报学报,2006,25(2):163-171

7  张广钦,刘璇,张丽等.美国公共图书馆建设标准核心要素分析[J.中国图书馆学报,2009(1):18 - 25,70

8  马费成,望俊成,张于涛.国内生命周期理论研究知识图谱绘制――基于战略坐标图和概念网络分析法[J.情报科学,2010,28(4):481-487,504

9  叶继元.国际索引研究的现状与走向――记2009年澳大利亚和新西兰索引学会国际研讨会[J.中国索引,2010,8(2):2-7

10  王知津,刘念,黄莹莹,王秀香.国内外索引研究的比较与展望[J.高校图书馆工作,2010,30(1):34-38

 

邱均平  男,1947年出生,教授、博士生导师,武汉大学中国科学评价研究中心主任,发表论文370余篇,出版著作20余部。

   女,1986年出生,硕士研究生,发表论文2篇。