《申报》全文数字化与索引数据库编制 马金林
发布时间:2018-09-25  浏览次数:17

《申报》全文数字化与索引数据库编制

马金林

(北方民族大学图书馆  银川750021

    本文分析了《申报》的史学、社会学研究价值,指出数字化是进一步开发利用《申报》的必由之路,提出了数字化索引的编制原则和策略。

关键词  申报  索引  编制  数据库  检索

 

《申报》被誉为“中国近现代史百科全书”,是旧中国历史最长、影响最大的一份报纸。她创刊于18724月,历经70多年的风风雨雨,至19495月上海解放时停刊,实际发行时间七十七年又二十七日,编号二万五千五百九十九号。其间,虽几经变革,但却完整记录了自晚清、民国早期、抗日战争及解放战争时期政治、经济、军事、外交、民风民俗、重大历史事件追踪报道,成为中国近现代不可替代的大型文献资料库。《申报》最著名的副刊《自由谈》,大量刊发鲁迅、茅盾、叶圣陶、巴金等左翼进步作家的作品,保存了20世纪初中国新文化运动的完整记录。不仅如此,《申报》人一笔一画地写下真实而鲜活的“信史”本身,也是充分展现旧中国新闻活动的一部生动的新闻学经典教科书,透过这部“大书”,可从中寻觅当代新闻改革的镜鉴。近年来,随着我国文化教育事业的高速发展,中国近现代史的研究日益成为一门重要的学科,《申报》作为中国近现代史的一部百科全书式的文献资料,日益受到研究机构和学者的重视。

1  《申报》的重大价值

由于《申报》这一大型工具性图书具有很高的学术价值,而全国的收藏量又非常有限,故而造成无法满足学术研究者、史学爱好者、新闻爱好者以及广大学者的阅读需求。那些需要查阅《申报》的学者,要么花巨资买一套,要么千方百计的寻找能查阅《申报》的图书馆,造成人力、物力的极大浪费。至于其他一些史学爱好者、新闻爱好者和学生来说就只能选择放弃了。

1983年,上海书店开始编纂《申报索引》,截至2002年编辑完成1919-1949年全部《申报索引》,20084月,全套《1919-1949年申报索引》出版发行。但截至目前为止,还未进行《1872-1918年申报索引》的编纂工作[1]。纸本索引在编纂过程和使用过程中也存在许多缺点影响到读者的检索。

2  数字化是《申报》开发利用的必由之路

在文献[2]中作者分析了报纸文献的重要价值,指出建立索引和数据库是开发报纸文献信息源的主要手段,提出需建立报纸文献的标引著录规则。文章中指出数据库是开发报纸文献的主要形式,倡导有计划地、系统地开发报纸资源,并提供相应的信息服务。作者还提出数据库是开发报纸文献的主要形式,编制数据库比手工编织索引效率要高得多,许多工序可以实现自动化,不但节省人力、缩短编制时间,提高索引质量,而且可降低编制成本,数据库更能在互联网上提供使用。

实现《申报》全文的数字化能够有效解决供求矛盾,有利于进一步发挥《申报》的学术价值和社会价值。

3  《申报》全文数字化的索引编制原则

综合全文检索与索引的特点[3],参考目前使用最多的两个报纸数据库世界各国报纸全文库(AccessWorld News)[4]和中国重要报纸全文数据库(Chinese Core NewspaperDatabase)[5]的功能设置、索引编排、检索功能,制定了《申报》全文数字化的索引编制原则如下:

1)以原有的纸质版《申报索引》为参考,既将纸质版本的索引内容收录,又将纸本索引不便于建立的索引收录进来,这样既延续了前人的劳动成果又减少了电子版索引的工作量。

2)建成后的电子版索引不但能利用建立的主题词进行检索,而且可以对扫描的电子版报纸进行全文检索,要能够最大程度地满足检索需求,扫描后的文件为国际通用的PDF格式的文件。对全文文件可进行OCR识别,将识别后的文件以文本的形式存放在数据库中。

3)分类法与主题法相结合的编排方式。对文献的类型采用分类法编排,对于内容、主题采用主题法进行编排,两者共同使用来发挥其各自的优点。这样可以更好地发挥索引数据库的编排功能,并为读者提供更好的检索功能和检索效果。

4)自然语言与人工语言相结合进行标引。主题法编排时可以选用人工语言和自然语言进行标引。采用人工语言标引各项专题的主题、事件、机构、战役、人物、地名等重要属性。采用自然语言标引各标引项。

5)针对不同的索引对象,制定具体的标引规则。如人物、地名、机构、事件、战役、社会新闻、经济新闻、社会文化、科学技术、广告等的标引,对于不同性质的文章都要按照其自身特点建立标引规则,这样才能保证索引和数据库的检索[2]。

6)设置报纸专题。如某一事件、机构、人物、战役、地域等,将相关的新闻资料进行收集,形成特色资源专题,为关心某一专题的读者提供检索与浏览的便利。还可以根据情况设置其他特色数据专题,如针对当时的民族工业、演艺业、医药业,甚至于对广告建立专题,通过这些专题可以很直接反映当时的社会现状。

7)索引数据表的设置。设置文章表记录文章信息,专题表收录各项设置的专题,各主要表的主要字段设置如下表1

1

表名

主要字段

用途

文章表

主题、标题、作者、第一作者、关键词、事件、人物、机构、日期、版号、栏目、篇幅、分类、文章类型、全文等

记录文章的详细信息,全文信息、标引项等信息

专题表

专题名、分类、主题、日期、版号、栏目、篇幅、文章类型、全文等

记录相关专题下的所有文章信息

人名表

人名、主题、文章名、事件名、分类等

重要历史人物信息及相关文章信息

事件表

事件名、主题、人物、时间、地点、文章名、分类等

重要历史事件信息及相关文章信息

机构表

机构名、主题、文章名、分类等

重要机构信息及相关文章信息

图片表

主题、图片类型、文章名等

刊载图片信息及相关文章信息

 

8)检索策略与功能的设置:

检索字段。选用全字段检索,凡是数据库中设置的字段,与文章检索有关的字段均提供检索入口。

词间关系。词间关系包括逻辑关系和位置关系。逻辑关系方面支持布尔逻辑运算符的组合检索,对多个检索字段进行逻辑组配检索,支持二次检索。位置关系方面应支持ADJNEAR运算符。

通配符。支持星号(*)、问号(?)两个通配符,其中星号可代替多个字符,问号可代替一个字符。

检索结果的控制。应支持检索结果按各字段进行排序,能保存检索结果和检索策略,并能控制和调整检索结果的每页显示条数,提供原文PDF文件浏览和下载等功能。

检索类型。主要提供一般检索与高级检索两种检索类型,为满足日后引文检索的需求,辅以引文检索。

4  总结

《申报》的全文数字化是一项复杂而繁重的工作,将《申报》的全文数字化,并搬到网上可一劳永逸地发挥《申报》的史料价值,为研究人员提供更好的查考资料平台。

 

注释

基金项目:北方民族大学科研项目(2007Y037)

参考文献

1 俞子林�巨大的出版工程――影印全套《申报》和编制《申报索引》�出版史料,20084:4-10

2 张琪玉. 报纸文献是一种极为丰富而未被开发的信息源. 图书馆杂志,19992:7-9

3 张琪玉. 全文检索与索引. 图书馆杂志,200711:3-5

4 世界各国报纸全文库.http://infoweb.newsbank.com

5 中国重要报纸全文数据库.http://dlib.edu.cnki.net

 

马金林  北方民族大学图书馆工作。