国内外内容索引研究进展与趋势分析 邱均平 李艳红
发布时间:2018-09-27  浏览次数:103

国内外内容索引研究进展与趋势分析

 

邱均平  李艳红

(武汉大学信息管理学院  430072

 

    为了解国内外内容索引的研究进展与研究趋势,本文运用文献计量法和内容分析法,对2011年之前国内外以内容索引为主题的文献进行统计分析,通过对论文的时间分布、作者分布和主题分布对文献进行比较,总结当前国内外内容索引研究的热点,并预测未来研究中的发展趋势。结果表明,内容索引尚未成为国内外研究的热点,国内外研究的侧重点各有不同,但总体来看,其发展趋势趋于一致。

关键词  内容索引  书末索引  文献计量  内容分析  研究热点  研究趋势

 

Abstract: To better understand the progresses in the field of content index at home and abroad, by using the methods of bibliometrics and content analysis, the paper makes a statistical analysis of the literatures on content index. The analyses include three aspects, distribution of public years, distribution of authors and hot topics. Finally, the authors summarized the hot topics in current researches and predicted the trends in future researches on content index. The results show that the content index are not a focus of research at home and abroad. The emphasis of the study is different between home and abroad. But in general, the trend of its development is to the agreement.

Keywords: Content IndexBack-of-Book IndexBibliometricsContent AnalysisHot Topics Research Trends

 

索引是为方便检索特定知识或信息而编制的指引工具,根据在信息检索中的功用,索引又可以分为检索情报源的索引和直接检索事实情报的索引,其中,直接检索事实情报的索引即为内容索引[1]。文献内容索引以文献中的局部主题和所涉及的具有信息价值的各种主题因素(如人物、机构、地区等)及其他索引项为标引对象,文献内容索引主要包括图书内容索引(或称书后索引)、学位论文内容索引、期刊论文内容索引、专利内容索引等[2]。为了了解国内外学者对内容索引的研究情况,本文运用文献计量法和内容分析法对国内外研究状况进行了比较与分析。

1  数据来源与研究方法

1.1  数据来源

本文选取201112月份之前的论文作为研究对象,其中中文文献来自于CNKI(中国知网)中的中国学术期刊网络出版总库、

中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库和中国重要会议论文全文数据库四个数据库。检索条件为2011年之前主题为“内容索引”“书后索引”“书末索引”“专著索引”的论文,共有记录236条,剔除工具书索引、期刊内容索引、主题索引、通讯等非学术文献或不相关文献以及重复录入的文献和无关键词的论文后,筛选出相关文献共143篇。英文文献来自web of science数据库中的SCI-EXPANDED SSCI, A&HCI, CPCI-S, CPCI-SSH, CCR-EXPANDED 数据库,检索主题=(content index*) OR 主题=(monographs index*) OR 主题=(back of book index*) OR 主题=(back-of-book index*) 的文献,从中精选 Web of Science 类别=( INFORMATION SCIENCE LIBRARY SCIENCE ) AND 文献类型=( ARTICLE OR PROCEEDINGS PAPER OR REVIEW ) 的文献,共获得484篇文章。

1.2  研究方法

本文主要采用文献计量法与内容分析的方法对国内外研究进行分析和比较。文献计量法是运用数学和统计学等方法,定量地分析一切知识载体的交叉科学,它是集数学、 统计学、 文献学为一体,注重量化的综合性的实用的知识体系,它为我们提供了描述与预测科学技术现象和规律的相关理论方法[3]。内容分析法是一种对研究对象的内容进行深入分析,透过现象看本质的科学方法。通过内容分析法对文献的特定主题内容进行定性和定量剖析,可以揭示该主题内容的实质,从而系统、客观地把握其研究动态和趋势[4]。一篇文献的关键词,能有效的揭示该文献的主题概念,通过对某一学科文献关键词的分布频次与特征的分析,能有效的揭示该学科的总体内容特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向、学术研究的重点与热点等[5]。本文通过对文献进行计量分析和内容分析, 对国内外研究进行比较,从而了解国内外内容索引研究的现状与趋势。

2  数据分析

2.1  论文时序分布

2.1.1  中文论文时间分布情况

1  论文发表时间分布

时间

80年之前

80-89

90-99

00-09

10-11

篇数

0

22

34

67

20

比例

0%

15.38%

23.78%

46.85%

13.99%

 

总体来看,关于内容索引的论文数量并不多,如表1所示,在1980年之前,国内没有关于内容索引的文章,进入80年代,内容索引的文献的增长到22篇,约占文献总数的15%,到了90年代关于内容索引的文献有所增长,共有34篇文献,进入21世纪以后,关于内容索引的论文数成倍增长,共有67篇,约占到内容索引文献的一半。总体上来讲,以内容索引为主题的文献总体上是呈不断上升的趋势,仅2010年到2011年这两年,论文数就已经达到20篇,由此可见,内容索引已经引起了越来越多学者的关注。国内内容索引论文发表的具体时间如下图所示,由图所知,历年来关于内容索引的文献并不多,1996年之前,每年的内容索引的论文数均未高于4篇,从1996年起,论文数量有所增加,但每年论文数量依然不多,说明内容索引依然没有引起人们的研究热潮。

2.1.2  外文文献时间分布情况

截止到2011年,国外关于内容索引的论文总共有484篇。由下表我们可以知道,1990年之前,关于内容索引的文献数量偏小,1970年到198920年间关于内容索引的文献总共只有12篇,1990年以后关于内容索引的文献有大幅度的增长。这与国内内容索引的论文的发表情况类似。进入21世纪之后,关于内容索引的论文就已经超过了所有论文的一半,说明1990年代之后专家学者更加关注对内容索引的研究。

国外内容索引论文发表的具体时间分布如下图所示,1990年代之前,关于内容索引的论文较少,最高也不超过3篇,可见,在1990年代之前,内容索引并未引起专家学者的注意。自2006年之后,关于内容索引的论文均保持着相对较高的数量。

1  中文论文发表时间分布

 

2  外文文献时间分布

时间

80年之前

80-89

90-99

00-09

10-11

篇数

6

6

160

250

63

比例

1.24%

1.24%

33.06%

51.65%

13.02%

 

通过国内外论文发表时间的对比,我们可以发现,国内外内容索引论文发表的时间分布总体上是一致的。总的来说,1990年代之前,国内外对内容索引的研究均较少,其中国外对内容索引的研究较早,最早可追溯到1970年,而国内对这一方面的研究则较晚。但是,相对来说,80年代,国内对内容索引研究的文献较多,国外在10年里仅仅只有6篇相关文献。另外,无论是国内还是国外,在19982008年都形成一个内容索引研究的小高潮。

2.2  作者分布情况分析

本文从国内外内容索引论文的核心作者与合作者两个角度对作者分布情况进行分析。

文献计量法中通常根据普赖斯定律分析文献的核心作者,即撰写全部论文一半的高产作者的数量等于全部科学作者总数的平方根[6],本文通过普赖斯定律来确定国内和国外文献的核心作者。科研活动中,可以通过合作使合作者知识结构等方面相互取长补短,提高研究成果水平。本文通过合作度与合作率两个计量指标来分析内容索引领域内作者合作程度。合作度与合作率两个计量指标反映了某学科领域内作者合作智能的发挥程度,数值越高,合作智能发挥越充分。

2.2.1  中文作者分布情况

143篇内容索引中文论文由187人次、166位不同作者所撰写,其中合著文献共有30篇,合著作者共有77人次。核心作者最低发文数m的值为m=0.749×nmax,其中nmax是指发文量最高的作者发表的论文数量,本文中发文量最高的作者nmax4,所以m的值约为1.5166位作者中,发文1.5篇以上的作者共16人(具体名单见表3)。由普赖斯定律可知,核心作者应完成所有论文总数的一半,作者总数的平方根为1316613),其发文总量为31篇,占论文总量21.68%,小于论文总数的一半,并不符合普赖斯指数,由此可见国内内容索引领域的研究暂未形成稳定的核心作者群。

3  中文核心作者及其发文量

序号

作者

发文量

序号

作者

发文量

1

夏侯炳

4

9

鲁海

2

2

王雅戈

3

10

侯汉清

2

3

平保兴

3

11

管蔚华

2

4

陈永山

3

12

丁玉玲

2

5

张琪玉

2

13

代洪波

2

6

任建成

2

14

程磊

2

7

曲静涛

2

15

程慧芳

2

8

钱亚新

2

16

陈耀盛

2

 

由表3可知,发文量在前四名的分别是江西省图书馆夏侯炳、常熟理工学院的王雅戈、南京师范大学的平保兴以及中国科学院上海图书馆的陈永山。其中夏侯炳的四篇论文,分别论述了图书内容索引在1979-2008年的研究概况、论述图书内容索引的推广以及在续修地方志工作中推广内容索引的必然性和现实可行性。王雅戈与平保兴则主要是从索引史的角度论述内容索引,陈永山则全面的论述了书末索引以及分类法和主题法的运用。在前16位作者中,王雅戈、张琪玉、曲静涛以及侯汉清等作者均为中国索引学会理事会成员。

合作度=(一定时期内相关文献)作者总人次/(一定时期内相关文献)论文总数,因此国内关于内容索引论文的合作度为187/1441.30。合作率=(一定时期内相关文献)合作论文数/(一定时期内相关文献)论文总数,国内关于内容索引论文的合作率即为30/14320.98%

2.2.2  外文作者分布情况

4  外文核心作者及其发文量

序号

作者

发文量

序号

作者

发文量

1

Jacso,P

10

7

Bar-Ilan,J

3

2

Chute,CG

5

8

DIODATO,V

3

3

Jorgensen,C

4

9

Elkin,PL

3

4

Liu,L

3

10

Enser,PGB

3

5

Markpin,T

3

11

Rorissa,A

3

6

Thelwall,M

3

12

Wacholder,N

3

 

484篇内容索引领域的外文论文由1112人次,983位不同作者撰写,其中合著文献共有306篇,合著作者934人次。核心作者最低发文数m的值为m=0.749×nmax,其中nmax是指发文量最高的作者发表的论文数量,本文中发文量最高的作者nmax10,所以m的值约为2.4983位作者中,发文2.4篇以上的作者共12人(具体名单见表4)。由普赖斯定律可知,核心作者应完成所有论文总数的一半,作者总数的平方根为3198331),其发文总量为84篇,占论文总量17.36%,小于论文总数的一半,并不符合普赖斯指数,由此可见国外内容索引领域的研究同样未形成稳定的核心作者群。

内容索引外文论文的合作度为1112/4842.30,内容索引外文论文的合作率即为306/48463.22%

对比分析国内外作者的分布情况我们可以看出,国内外在内容索引领域均未形成稳定的核心作者群,仅从作者发文量来看,关于内容索引的论文都较少,国内核心作者最多仅发表了四篇论文,而超过三篇的仅有4人,国外核心作者最多发表了10篇相关论文,但是超过三篇的也仅有12人,可见,内容索引领域的研究还很不足。

通过比较国内外论文的合作度和合作率我们可以看出,国外内容索引领域论文的合作度与合作率均要高于国内的论文,在中文论文中,合作作者数最多为4人,而国外内容索引论文合作作者数最高却可达到11人,由此可见,国外对于内容索引研究的合作性更强,其合作智能发挥得更加充分。

2.3  研究热点分析

某一学科领域内论文的高频关键词能反映该领域的研究热点,而关键词的变化则反映了该学科研究发展趋势,而共词分析可通过聚类过程对所研究的主题进行深入分析,同时应用词频分析与共词分析对内容索引论文进行统计分析,可以揭示本研究领域的特点、规律、知识结构及状况,从而掌握此方面研究的热点和趋势,对内容索引研究和发展起着至关重要的作用。

2.3.1  中文文献研究热点

通过对中文文献中的关键词进行合并与剔除之后,共整理出612个关键词,其中出现频次较高的关键词如下表所示。由表5可知,出现频次最高的词是书后索引,其次为索引编制和内容索引,通过高频词的分布我们可以看出,国内内容索引的研究重点主要是研究内容索引基本理论及在文献中的应用,国内论文研究主要集中于图书的内容索引,研究对象包括工具书、学术著作、百科全书、出版物等。由下表我们也可以知道国内学者对内容索引的编制、内容索引的类型、内容索引的应用等都有一定的涉及。

5  中外文论文高频词分布

序号

关键词

词频

序号

关键词

词频

1

书后索引

43

13

分类目录

5

2

索引编制

31

14

汉语拼音

5

3

内容索引

18

15

检索系统

5

4

索引

14

16

索引工作

5

5

主题索引

14

17

百科全书

4

6

人名索引

8

18

出版物

4

7

工具书

7

19

地方志

4

8

学术著作

7

20

索引法

4

9

中国大百科全书

7

21

图书内容

4

10

基于内容的检索

6

22

文献检索

4

11

检索功能

6

23

中文工具书

4

12

XML

5

 

 

 








 

 

3  中文高频关键词共现网络

根据中文文献中关键词的共现情况,构建出一个高频关键词的共词矩阵,利用UCNET为高频关键词构建出一个关键词共现网络,通过该网络,可以了解每一个关键词在网络中的位置以及它与其他关键词的关系,由下图可知,该网络是一个以书后索引为核心的一个网络,书后索引与检索系统、索引编制、工具书等关键词都有较密切的联系。由图可知,基于内容的检索与XML都是位于边缘的关键词,与其他关键词联系没有太大的联系,而这两个研究内容正是内容索引领域新的研究热点。

将中文文献的关键词按照时间分布进行统计,分别统计出19801989年期间,19901999年期间,2000年到2011年期间论文主题词的分布情况,将相近和相关的关键词进行汇总,根据频次进行排序。表6列出了19802011年期间排名前5的研究主题。

6  中文文献主要研究主题分布

1980-1989

1990-1999

2000-2011

研究主题

关键词

研究主题

关键词

研究主题

关键词

书后索引(17

书后索引,书末索引

编制(21

索引编制、索引编纂、编索引、编制索引等

视频(11

视频检索、视频点播、视频、视频文件等

编制(13

编制、编制索引、编制机构、编制工作、索引编制等

书后索引(18

书后索引、书末索引

基于内容的检索(9

基于内容的检索,基于内容检索,基于内容的视频检索等

查检(11

查检、查找、检索、检索方式检索工具等

内容索引(8

内容索引

书后索引(9

书后索引、书末索引

目录(10

目录、目次、目录工作、目录体系等

主题(8

主题索引、主题标引、主题法等

主题(8

主题词、主题地图、主题索引等

主题(9

主题索引、主题、主题法、主题目录等

百科全书(8

百科全书、中国大百科全书等

XML8

XMLXML信息检索系统等

 

通过对主题进行分析,我们可以发现,80年代,内容索引的研究重点是图书的内容索引以及索引的编制,内容索引的功能也主要集中在查检功能,同时也注重索引与目录的比较研究,而内容索引的类型则以主题索引为主。到了90年代,随着索引自动化的发展以及对图书内容索引需求的增加,越来越多探讨如何编制内容索引的文献出现。同时,随着1993年中国大百科全书的出版,很多学者专门撰写文章对其进行评论,为内容索引的实际应用提供良好的范例。进入21世纪之后,探讨内容索引的文章出现了很多新的主题,研究的主题更为分散。除了图书的内容索引之外,随着网络技术和计算机技术的不断发展,对内容索引的研究更加集中于内容索引在信息检索中所发挥的作用,如何运用内容索引实现对多媒体资源的组织与揭示,提高网络环境下对视频和图片等资源的检索效率成为研究者较为关注的话题。同样的研究主题也会随着时代的发展而发展,其包含的内容也会有所不同。例如“主题”这个研究主题,在80年代主要指主题索引、主题法、主题目录等,在90年代,增加了主题标引的内容,而进入21世纪之后,主题地图、主题搜索引擎、主题网关等成为了“主题”领域的新的研究对象。

2.3.2  外文文献研究热点

7  外文文献高频关键词分布

序号

关键词

词频

序号

关键词

词频

1

information retrieval

50

13

automatic indexing

8

2

databases

22

14

classification

8

3

internet

21

15

information science

8

4

world wide web

19

16

digital libraries

7

5

information

17

17

impact

7

6

systems

17

18

bibliometrics

6

7

indexing

16

19

content analysis

6

8

retrieval

16

20

impact factors

6

9

search engines

16

21

indexes

6

10

journals

13

22

model

6

11

access

11

23

web

6

12

search

11

 

 

 

 

通过对英文文献的关键词进行统计分析,对关键词进行剔除合并之后,共整理出880个关键词。表7列出了英文文献中出现频次较高的关键词。由表可知,在英文文献中,出现频次最高的是信息检索,且信息检索遥遥领先于其他关键词。紧随其后的是表示网络环境的数据库、因特网和万维网。在外文文献中,内容索引的研究对象主要是以信息和期刊为主,并且十分关注内容索引在搜索引擎与数据库中的使用,内容索引的功能主要以检索和内容分析为主,而内容索引的编制主要采用自动标引,且注重分类法的使用。另外,国外在研究内容索引时比较注重对文献计量学的研究。

根据时间对英文文献关键词进行统计,由于1970年到1989年期间的文献无关键词,且2010-2011年的文献较多,因此本文将分别统计出19901999年期间、2000年到2009年、2010年到2011年期间论文主题的分布情况,将相近和相关的关键词进行汇总,根据频次进行排序。表8列出了19902011年期间排名前5的研究主题。

8  中文文献主要研究主题分布

1990-1999

2000-2009

2010-2011

研究主题

关键词

研究主题

关键词

研究主题

关键词

 

information retrieval13

information-retrievalinformation retrievalinformation seeking

information retrieval33

information-retrieval information retrieval

information retrieval10

information-retrieval

information retrieval

Search9

searches search enginessearch and retrieval

Search23

Searchsearch enginesearching behaviorsearch strategies

Image8

image indexingimage retrievalimages

image attribute

System8

Systemsystemssystem-design

Database22

Databasedatabasesdatabase-systems

Web8

web citationsweb content mining

web pages

Text8

Texttext databasestext retrieval

Web20

Webweb sites web citations web catalogs

Indexing7

Indexingindexing techniques

Journals7

journals

Indexing18

Indexingindexing softwareindexing consistency

Document5

Documentsdocument indexing document organization










 

通过对国外文献研究主题的分析,我们可以看出,80年代以来、信息检索一直都是内容索引研究的重点。80年代到90年代,搜索也是研究的重点之一。80年代,内容索引注重对系统、文本和期刊的研究,到了90年代,内容索引研究的重点转向数据库、网络和标引等内容,近两年来,内容索引领域更加注重对图片、网络、标引和文档等内容的研究。

对比国内外文献高频词分布我们可以看出,国内外内容索引研究领域有着较大的区别,国外内容索引的研究主要注重网络环境下和数据库环境下内容索引的研究,而国内索引则注重传统文献的内容索引,主要探讨的是图书、工具书等的内容索引。

3  国内外研究进展与趋势比较

通过对国内外内容索引文献的发表时间、作者分布的分析,我可以看出,内容索引并没有成为国内外的研究热点,以内容索引为主题的论文较少,且均未形成核心作者群。随着我国文化事业的发展以及中国索引学会多年来在推广普及索引编制出版方面的坚持不懈而卓有成效的努力人们越来越关注图书内容索引,国内对内容索引的研究热情有所增长。虽然国内外内容索引研究在不同的方面存在一定的差异性,但是从总体上来讲,内容索引研究总的趋势是相同,主要体现在以下几个方面:

第一,国内内容索引的研究注重对传统文献的索引理论的研究,而国外更加注重网络环境下现代索引技术的研究,但总体来讲,对网络信息的标引正日益成为国内外内容索引研究的热点问题。长期以来,图书内容索引在西方受到广泛的重视,西文著作从 19世纪末、日文著作从 20 世纪初便开始普遍重视编制书后内容索引的工作,前50年有内容索引的图书占的比率尚略有起伏进入 50年代后呈逐年稳定上升的态势 70 年代起即超过了全部图书的 90%7],由此可见国外文献中内容索引的应用已经相当普遍,因此,对传统文献内容索引的研究较少,更注重对现代化的索引研究,主要集中在网络环境中内容索引的应用。相比较而言我国书末索引工作开始较晚,一直以来都有学者撰文指出我国书末索引的落后现状,希望能改变国内文献内容索引的落后面貌,但是,对内容索引的研究并没有形成一个较为全面的研究体系,无论是对内容索引的类型、功能、编制还是评价标准等,都只是零散的研究,并不全面。但是通过比较国内外的研究主题我们也可以发现,国内外对内容索引的研究越来越集中于对现代索引技术的研究。

第二,内容索引研究对象越来越多。国内对内容索引的研究从古籍和工具书的内容索引扩展到图书、期刊、论文等的内容索引,而随着网络技术的发展,内容索引逐渐应用到图片、视频等多媒体资源的组织与利用上。相比较而言,国外对传统文献方面的内容索引研究并不多,主要以电子资源为主,早期主要是对文本和期刊的研究,后来逐渐发展到对网络环境中信息资源的组织和利用,主要也是对图片与视频等多媒体资源进行组织利用,并且其研究对象有逐渐扩大的趋势。

第三,内容索引的应用范围越来越广。国内内容索引主要集中于图书馆、出版社和计算机等领域,主要用于文献信息的组织和利用,相比较而言,国外内容索引应用的范围更加广泛,内容索引不仅应用于学术出版、评价、计量,还不断适应当前网络环境的发展,用于搜索引擎、数据库、web2.0、多媒体资源等领域的信息检索和信息组织,并且在电子商务、电子政务等领域也有所发展。从最近几年关于内容索引的研究我们可以看出,内容索引的应用范围已经越来越广,而信息检索将依旧是内容所以研究的热点问题。

第四,内容索引的研究视角越来越多元化。除了传统的索引理论角度之外,对索引研究的过程中还注重引入新的理论与方法,如语义、知识地图、标签、元数据、文献计量、网络计量等理论和方法,为索引理论和方法的研究带来新的视角。

4  结语

本文从文献计量与内容分析的角度,对历年来国内外以内容索引为主题的论文从时间分布、作者分布和主题分布等方面进行了比较分析。总体上,内容索引并没有成为国内外研究的热点问题,且在研究主题方面国内外均存在着较大的差异,国内以传统的理论研究为主,而国外则更加重视与其他学科相结合开展索引的应用与实践的研究。但是从总体上来看,受网络化和信息化环境的影响,注重对网络信息资源的研究将是国内外内容索引研究的共同趋势。本文希望通过对当前国内外内容索引研究的进展和发展趋势的分析,为推动我国内容索引领域的研究提供一定的参考和启示。

 

参考文献

1  张琪玉.图书内容索引编制法——写作和编辑参考手册[M.北京:化学工业出版社,20064

2  全国信息与文献标准化技术委员会中国索引学会. GB/ T 22466- 20085索引编制规则(总则)S北京中国标准出版社, 2009

3  邱均平.文献计量学[M.北京:科学技术文献出版社,1988:440-446

4  邱均平,邹菲.关于内容分析法的研究[J.中国图书馆学报,2004(2):12-17

5  邱均平,曾倩近五年来国内外索引研究的进展与趋势[J.中国索引,20111):2-9

6  邱均平.信息计量学[M.湖北:武汉大学出版社,2007

7  丁玉玲 夏侯炳.论图书内容索引在我国的推广——写在《索引编制规则(总则)》发布和实施之际 J.图书馆工作与研究,200912):66-69

 

邱均平  教授,博导,武汉大学中国科学评价研究中心主任,中国索引学会副理事长。