古籍数字化研究文献的统计分析 王 刚
发布时间:2018-09-25  浏览次数:6

古籍数字化研究文献的统计分析

 

(哈尔滨师范大学图书馆  150080

    在调查我国《中国学术期刊全文数据库》1994-2008年发表的有关古籍数字化研究论文的基础上,对文献的年代分布、期刊分布、主题分布和作者分布等情况进行了统计分析,并展望古籍数字化研究的未来发展趋势。

关键词  古籍数字化  统计分析  研究论文

 

古籍数字化是古籍文献制作成数字成品的过程,是利用现代计算机信息技术, 将常见的语言文字或图形符号转化为能被计算机识别的数字符号, 从而制成古籍文献书目数据库和古籍全文数据库, 用以揭示古籍文献中所蕴涵的极其丰富的信息资源,通过光盘、网络等介质保存和传播,为古籍的开发利用奠定良好的基础,从而达到保护和利用古籍的目的。同时,古籍数字化也具有古籍整理学和数字技术相结合的跨学科特征,古籍数字化也是21世纪古籍再生保护的主流,代表着未来古籍再生保护和利用的发展方向[1, 2]。

古籍数字化是伴随信息技术的进步而发展起来的一个新领域, 与古籍整理、文献保护和利用、文化传承紧密相关[3]。我国的中文古籍数字化始于上世纪80年代, 至今已走过大约20年的发展历程。21世纪以来, 随着我国对古籍保护力度的加大,古籍数字化的研究工作不断走向深, 逐渐成为古籍保护研究的一个热门领域,因此有必要对我国古籍数字化研究成果加以分析研究, 以作为今后理论研究与实践工作的新起点[4]。本文利用文献计量学方法对与古籍数字化有关的研究论文进行统计分析, 在科学量化的基础上描述了古籍数字化相关研究成果,以期较全面、完整地揭示该研究的现状,跟踪该领域研究人员的研究动态,从而促进我国古籍数字化研究的深入发展。

1  数据来源和统计方法

1.1 数据来源

本文以《中国学术文献网络出版总库》(CNKI)为数据源。其中,CJFD是目前世界上最大的连续动态更新的期刊全文数据库,也是世界上应用最广、功能最全、数据量最大的动态知识信息库之一,分10大专辑,126个专题文献数据库,收录9017种期刊。遴选约4000种行业重要和核心期刊进行历史回溯,回溯至其创刊年代,期刊库累计文献量将达23000万篇。CJFD同时注重期刊数据的完整率,1994-2008年每种期刊的期数和篇数完整率接近100%

CNKI的文献类型包括:学术期刊、博士学位论文、优秀硕士学位论文、工具书、重要会议论文、年鉴、专著、报纸、专利、标准、科技成果、知识元、哈佛商业评论数据库、古籍等;还可与德国 Springer公司期刊库等外文资源统一检索,它是目前我国收入期刊最全、文献量最大的综合性文献数据库之一,所收入的期刊基本覆盖了我国正式出版的社科和科技期刊[5]。

1.2 文献检索统计方法

利用计算机以“典籍文献数字化”、“古籍文献数字化”、“古典文献数字化”、“典籍数字化”、“古籍数字化”、“古籍电子化”、“典籍电子化”、“古典文献电子化”、“典籍文献电子化”、“古籍文献电子化”为检索词,以文章的主题为检索范围,以20081231之前为检索时间段,在专业检索界面检索。

检索条件:(主题=典籍文献数字化+古籍文献数字化+古典文献数字化+典籍数字化+古籍数字化+古籍电子化+典籍电子化+古典文献电子化+典籍文献电子化+古籍文献电子化并且<2009) (精确匹配)。检索方式:单库检索。数据库:中国学术期刊网络出版总库。

检索到234条文献记录,选定检索到的文献,单击检索界面的“存盘”按钮,导出并保存检出的文献题录;同时通过拷贝选择性粘贴方法,把检索界面中所显示的序号、题名、作者、文献来源、发表时间、来源库、被引频次、下载频次各项内容复制到EXCEL中保存备用。利用NoteExpress软件对检出的文献进行查重提练,删除一稿多投的论文和会议通知等非研究文献后,得到225篇研究论文。以文献计量学的基本定律作为数据的分析方法,用EXCEL对所检到的225篇论文从年代分布、期刊分布、主题分布、作者分布等情况进行统计分析。

2  研究论文的统计分析

2.1 论文发表年代分布

根据文献计量学原理,通过对论文数量随时间的变化进行统计分析,可以从时间概念上了解该研究专题的发展历程和研究的热度[6]。

1  论文年度分布数量及比例

年代

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

合计

篇数

1

0

3

3

3

11

8

18

19

18

24

34

40

43

225

比例%)

0.4

0.0

1.3

1.3

1.3

4.8

3.5

8.0

8.4

8.0

10.6

15.1

17.7

19.1

100

从表1看出,最早发表的有关古籍数字化论文是祝敬国1995年发表于《文物保护与考古科学》上的“古籍语料库字体与结构研究”研究论文,该论文讨论了古籍电子化中的输出字体和语料库结构。

199519995年古籍数字化研究处于起步阶段,共发表论文10篇,仅占总发文量的4.3% 200020045年有了较大的发展,共发论文74篇,年均14.8篇,占总发文量的32.9% ;从200520084年间,共发论文141篇,年均35.3, 占总发文量的62.7% ,古籍数字化研究进入了快速发展阶段。

从图1来看,古籍数字化论文的发文量虽然出现微弱波动,但总体上呈现出曲线型增长的态势。曲线上的第一个峰值出现在2000年,论文数量从1999年的3篇增至2000年的10篇,主要原因是2000年在北京召开了两岸五地中文文献共建共享会议,在很大程度上促进了古籍数字化论文发文量的迅速增长。2001年论文数量虽略有下降,但2002年又有了一定的增长,从图上看,2002-2004年论文数量的增长处于停滞状态,古籍数字化研究可能遇到了理论或技术上的瓶颈,然而从2005年开始出现了快速增长的态势。根据曲线增长方程 y = 0.2397x2 - 0.2526x + 0.5879 预测,2009年论文数量将增至51篇。

2.2 论文期刊分布

通过对刊载论文的来源期刊进行统计分析,可以确定论文的期刊分布规律,确定该研究领域的核心期刊,了解最新研究进展、发展动向及趋势。

2.2.1  期刊类型分布

对《中国学术期刊网络出版总库》(1994-2008)中的225篇古籍数字化论文进行统计分析,结果发现225篇论文分别发表在112种期刊中,其期刊类型分布如表2所示。

由表2可知,古籍数字化研究论文主要集中发表在图书情报类期刊上,在该类40种期刊中共发表150篇相关研究论文,即1/3的期刊,刊载了66.7%论文,另外2/3的期刊,刊载了论文总量的32.3% ,因此,古籍数字化研究论文基本呈集中―离散分布。

2.2.2  高载文量期刊分布及核心期刊确定

由表2可知,每种期刊的平均载文量为2篇。如果将载文量4篇以上的期刊视为高载文期刊,那么按照载文量递减排序,可得到表3

3所列出的15种期刊载文量84篇,占总论文量的37.4% 。表3中的期刊均为图书情报类专业期刊,其中北大核心期刊第四版中收录的核心期刊5种,分别是《图书情报工作》(9篇),《图书馆论坛》、《图书馆杂志》、《图书情报知识》(各5篇),《图书馆学刊》(4篇),说明图书情报界是古籍数字化研究的主要领域。从表3中还可以看出,古籍数字化研究论文分布比较分散,目前该研究领域还没有形成占绝对优势的核心期刊,古籍数字化的研究还处在初级阶段。

2.3  论文主题分布

论文主题特征能反映出该领域研究热点,通过对相关论文主题分析有助于准确地了解和掌握我国古籍数字化研究的整体发展趋势[7。结合每篇论文的中图分类号和关键词,采用聚类统计分析方法对所有论文进行主题分类,将古籍数字化研究论文分为八个主题,分布情况见表4从表4古籍数字化主题分布情况的统计可以看出,总体上,古籍书目数据库、古籍数字化技术、古籍数字化资源等研究是十几年来我国古籍数字化研究的重点内容。对古籍书目数据库的研究,主要集中在作者对各自所在图书馆和藏书机构古籍书目数据库建库工作的经验介绍,以及对现有古籍书目数据库的整改和完善工作提出的诸多建设性建议。对古籍数字化技术的研究,主要集中在对古籍汉字字符集处理技术、文字识别和辅助校对技术、古籍文献数据库构建技术和古籍文献全文检索技术等方面的研究。在古籍数字化资源研究方面,分别对古籍数字化资源的选择和共享利用、深度开发等方面进行了较深入的研究。

从主题分析还可以看出,在近几年来专业古籍数字化(如农业古籍数字化、中医古籍数字化)和网络环境中的古籍数字化研究发展速度很快,大有后来居上的趋势。特别是古籍数字化理论方面的研究近年来也得到了重视。

2.4 论文作者统计分析

在所统计的225篇文章中,共有作者271人,其中以第1作者身份发表论文的有位188位,非第1作者发表论文的作者有83位。

2.4.1  作者的合著情况统计分析

作者的合著情况统计分析,可以反映一个领域内文献的合作写作的情况,进而可以反映出一个学科领域内研究的深入情况。用来表明作者合作情况的指标通常有著者合作度、合著率、篇均作者数等。著者合作度是指在一定的论文集合中合著文章与单作者论文的比例;合著率是指在一定时域内, 某期刊、某学科多著者论文数与总论文数之比;而篇均作者数是指:在一定时期内, 某期刊、某学科的每篇论文的平均作者数[8。古籍数字化研究文献作者的合著情况统计分析结果见表5

 





5统计分析数据表明,参与古籍数字化研究的著者较多, 总的篇均作者数仅为1.14 ,独著文献数为161篇,占文献总数的71.6%;合著文献数为64篇,合著率为28.4%,其中两人合著的文献有41篇,合著率为18%,3人及3人以上合著的文献有23篇,合著率为10.2%。这说明我国古籍数字化的研究还主要以个人为主,合作研究有待深化。由表6可以看出,在最初几年里,由于文献量较少,少数几篇文章的著者情况就可以影响到著者合作度的增减,因此,著者合作度不稳定。从2002年起,随着研究领域的不断扩大,研究人员的增加,发文量逐年增加,著者合作度基本上逐年递增。2001-2005年平均合作度为40% 2006-2008年平均合作度为45% ,古籍数字化研究的合作度在不断提高,并且2004年后,年度合作度基本保持在40-60%之间。同时,在近年发表的合著论文中不仅是同单位的研究人员合作,还有不同单位研究人员的合作研究,甚至是不同机构之间的合作研究。由此可见,随着古籍数字化研究的进一步深入,古籍数字化的合作研究必将进一步向全面合作的方向发展。

2.4.2   核心作者确定

发表论文的数量可以作为评价学科人才的依据之一,而核心作者群则起着导向的作用,是形成文献流的骨干力量。根据普赖斯的理论,核心作者发表的论文数可以按N1=0.749(Nmax)1/2 来计算。式中N1为核心作者至少应发表的论文数;Nmax为统计年段内,高产位作者的论文篇数[9。只有那些发表论文数在N1篇以上的作者才能被称为核心作者。在这14年里,发表论文数量最高作者的文献数为15篇,则N1=2.9,由于论文篇数必须取整数,从而可以得出N1的值取3篇,因此,发表论文在3篇以上的作者才是古籍数字化研究领域的核心作者。表7列出了发文量在3篇以上的作者,可以被称作是古籍数字化领域研究的核心作者。根据作者统计分析发现,在271名作者中,有231人只发表了1 篇论文, 占作者总数的85.2 %。发表2 篇论文的作者有31占作者总数的11.4% , 发表3 篇以上论文的作者9人,占作者总数的3.3 % 。由此可见,古籍数字化研究的作者分布离散,核心作者不是十分明显,这说明在古籍数字化研究方面还比较薄弱,高产出作者还不多,还没有能够形成核心作者群,大部分作者没有对该主题进行深入研究。

2.5 文献作者所属研究机构统计分析

225篇论文作者所属的研究机构进行统计,按照机构发表论文的数量排序由多到少,选出了发表论文数量排在前10名的研究机构,见表8

8 发文量2篇以上的研究机构

机构名称

论文数

南京大学

西北民族大学

中国中医科学院中医药信息研究所

武汉大学

西南师范大学

中国农科院农业信息研究所

南京图书馆

新乡学院

浙江中医药大学

中国社会科学

17

6

6

5

5

5

4

4

4

4

由表8中数据可以看出,论文发表数量4篇以上的10个机构中,有7所高校,2个研究所,1个图书馆,由此可以看出,高校是古籍数字化研究的主体,其中南京大学发文量最多,其次是西北民族大学和中国中医科学院中医药信息研究所等,他们是古籍数字化研究领域的核心机构。

3  结语

通过以上对文献特征进行的具体分析,我们对古籍数字化领域的研究现状有了进一步的了解,全国关于古籍数字化的研究总体是呈上升态势,尤其是2004年以后,论文量明显增加,预示着此项研究已开始向着持续发展的阶段过渡。

有关古籍数字化方面的研究论文,大多数均发表在图书情报类的刊物上,说明图书情报界刊物对此类研究给予了较大的重视和支持,尽管目前国内还未形成一批研究古籍数字化这一专题的核心期刊,但随着形势的发展,这种局面将会很快改变。

在研究论文中,以古籍书目数据库和全文数据库构建为主题的论文篇数最多,是研究中的热点主题,体现了古籍数字化研究的总方向,这与现代信息技术在图书馆中的快速发展和运用相吻台。随着现代化信息技术的飞速发展,古籍文献的数字化和网络化将会受到越来越多学者的关注,这一主题将成为今后的研究热点,古籍数字化的研究对象和研究领域将得到进一步拓展。

总之,通过对古籍数字化研究文献的统计分析,为今后研究人员跟踪该领域研究动态,了解该研究领域的研究热点和发展的趋势,从而获得古籍数字化研究新方法、新资源,发现新问题、新观点,开拓新的研究方向,提高研究效率和水平,进一步提高创新能力,继承前辈研究的理论成果,同时充分运用自己的智慧,发挥主观能动性,从而挖掘出更多新的、有价值的东西,将使古籍数字化的研究能够进入一个崭新的阶段。

 

参考文献

1 毛建军.古籍数字化概念的形成过程探析. 科技情报开发与经济, 2006(22)

2 胡明丽. 当今时代图书馆古籍保护新探. 陕西教育:高教版,2008(6)

3 郝丽艺,张青. 中国古籍数字化国际学术研讨会综述. 高校社科动态, 2007(6)

4 王玉玲. 现代古籍保护技术的进展与应用. 科技情报开发与经济, 2008,18(19)

5  http://www.cnki.net/index.htm

6 王克平等. 我国竞争情报研究论文的统计分析. 情报学报, 2006,25(3)

7 孙越. 近十年我国竞争情报论文统计分析. 现代情报, 2008,28(10)

8 陈红勤,朱宁.2003-2007年我国开放存取研究文献计量学分析. 情报科学, 2008(9)

9 马爱霞,吴抒艺. 我国医疗救助文献计量分析. 中国药业, 2008,(14)

 

    哈尔滨师范大学图书馆工作。