关于“20世纪中国人物传记资料全文数据库”的进展与困惑
于翠艳 傅德华 李春博
(复旦大学历史系 上海 200433)
20世纪中国人物传记资源的整理是一个重要的课题,而其数据库建设则更是意义重大。早在2009年,我们主编的《二十世纪中国人物传记资料索引》(以下简称《世纪人物索引》)[1] 即将出版之际,就曾撰写过《关于创建“20世纪中国人物传记资料全文数据库”的构想》 一文[2],提出了创建全文数据库的最初设想。为了实现我们的这一目标,2010年9月,我们以“20世纪中国人物传记资源整理与数据库建设研究”为题,参加了国家社科基金重大项目的招标,终于12月竞标的成功,四代人用了二十八年时间的成果被列为国家级的项目,最终才有机会实施我们的梦想。
我们课题项目组在今年2月份举行了开题报告会,对该课题进行详细论证,为课题的开展做好了充分准备。此后,我们便根据课题组的安排以及论证会上专家的建议,正式展开了对课题的研究,开始了搜集资料的实物、扫描和翻拍,以及全文数据库的创建。
我们要创建的“20世纪中国人物传记资料全文数据库”,比我们最初构想的更加完善,更方便读者的利用。这个数据库不仅可以检索《世纪人物索引》中的20余万条条目,而且能检索到其中5.8万余人的全文传记资料;不仅可以检索到全文的PDF图片形式,而且可以下载可编辑的文本形式。它还是一个开放式的数据库,以后可以不断补充新发现的资料,使数据库越来越完善。数据库版面形式做成与《中国方志库》一样,即在同一个版面上,左边是PDF图片形式,右边是识别好的、可以任意检索、复制的PDF形式或文本形式,版式两边完全相同,这样既可以从右边通过传主姓名、文章篇名、关键词、作者、出版者、出版时间等多个角度进行任意检索和下载,同时又方便对照左边的PDF原文进行比对,保证了引用原文的准确率。
不过创建这样的数据库是一项非常浩大的工程。仅《世纪人物索引》中收录的人物已达5.8万余人,传记资料20余万条,而索引中未收的人物传记资料还有不少。首先要将索引中收录的分散于近三千种报刊、二千九百种论文集、千余种专著中的资料,全部找到,已非易事,更不用提还要将其扫描或翻拍后再加以识别了。再加上新增的索引以外的内容,其工作量就更大了。
如此浩大的工程,要在短期内完成也不太现实,于是我们选择从难点开始突破,即先做1949年前发表和出版的中国人物传记资料。这部分资料因印刷时间较长,纸张较脆,是各图书馆的重点保护对象,且馆藏有限,读者急需又查阅不到珍贵资料。所以我们决定先选择这部分资料来实践和摸索,但要搜全1949年前的传记资料绝非易事,这是一个需要我们去突破的很大难点,急需得到海内外学术界的关心与支持。
目前,我们的“20世纪中国人物传记资料全文数据库”建设已取得了一定的进展。最初的工作展开,从整理《世纪人物索引》中1949年前发表和出版的有关中国人物传记资料信息开始。经整理,《世纪人物索引》中收录的1949年前发表、出版的人物传记资料有专著千余种,论文集百余种,散见于报纸的条目有500余条,散见于期刊的有1200 余条。我们根据有关信息,先查找我们系资料室和校图书馆所收藏的资料,将能找到的专著进行全文扫描,同时将扫描好的全文交由在国内有影响和实力的北京的方正和湖南青苹果两家专业数码公司进行全文识别、校对。查找、扫描和识别同步进行,保证了工作的顺利进行。目前已扫描好的专著有300余种,已识别、校对好的有100余种;论文集已扫描好的有70余种,并开始识别、校对;因各图书馆一般都不允许扫描1949年前的报刊,因而散见于报刊的文章,我们只能翻拍,目前已翻拍800余篇。
尽管我们系资料室和校图书馆的藏书比较丰富,但也不可能收全所有的资料,因而只能去校外及外省市图书馆搜集。半年来,我们分别前往上海图书馆、国家图书馆、浙江图书馆、南京图书馆等处查阅,搜集到了不少复旦和上海地区没有的珍贵资料,尤其是在国家图书馆和浙江图书馆,还有南京大学图书馆。谨此,我们要特别感谢他们的鼎力支持与帮助。
这些扫描或翻拍好的全文资料经过识别、校对后,开始录入我们学校软件学院李旻老师已设计好的数据库中,便可进行任意检索、下载和编辑利用。为了使花费如此代价搜集到的资料不被丢失,我们专门购置一台服务器。可以说,我们的数据库建设的进展还算比较顺利,但在这个过程中我们也遇到一些难题及不少的困惑:
首先,搜集资料十分不易。使用我们系资料室和学校图书馆收藏的资料还好办,只要找专业的扫描公司帮我们扫描或是翻拍即可,但还有相当一部分是我们没有收藏的,要搜集这部分资料,只能去别处查找。上海图书馆是本项目的参与者,我们跟他们联系起来也比较方便,可以委托他们扫描或拍摄,然后支付他们一定的合理费用。那些上海找不到的资料,就只能去国家图书馆、浙江图书馆、南京图书馆以及各高校图书馆等处查询了,尽管这样需要增加不少差旅费,但到了当地以后,还是会遇到不少麻烦。有的图书馆对我们还是很支持的,可以让我们自己翻拍,最后他们根据翻拍的页数收费,收费也比较合理;但有的图书馆是让我们提供书目,他们代为扫描,不过只能扫描全书的三分之一,然后将扫描的打印件给我们,但收费很高,一页要高达七至八元;也有的图书馆一页收费高达十几元,且只允许我们翻拍三、四页。对于一、二百页的专著来说,这样的翻拍好像也没有多大意义。更有甚者,有些资料我们目前还没有查到有哪家图书馆有收藏,一时还无法看到全文,现在只能在各家图书馆中一家一家地慢慢查找,尽量争取将其找全。最麻烦的还是查找1949年前的报纸中的人物传记资料,有影印本比较容易解决,一般图书馆都允许翻拍。那些没有影印本的就很难解决了。因1949年前的报纸大都已经很脆了,稍微一碰就碎掉,所以大多图书馆甚至连查阅都不允许,更不用说扫描、翻拍了。
其次,对全文进行文字识别的成本较高。1949年前发表、出版的资料大多为竖版繁体无标点,现在虽有专业的OCR识别软件,但对繁体字的识别率较低,而且由于这些文献版式复杂,字形多样且无标准化,更增加了识别的难度,因而我们需要支付识别单位的费用较高,识别的成本是扫描的五至六倍。成本更高的是翻拍的报刊资料,因分辨率较低,很难识别,只好采取文字录入的方式解决,这比识别的成本又要高出一筹。如此高的识别成本,恐怕会造成我们的课题经费不足,还需要再申请追加经费。
最后,对全文进行校对其难度更大,且校对的工作量达到难于胜负。因繁体字中的异体字或相近的字较多,识别过程中很容易出错,如“甯”与“寜”、“己”与“已”和“巳”、“土”与“士”等很容易搞错,识别单位在识别时要特别注意,我们在校对时更是不能有半点马虎。同时,识别单位在识别过程中,会出现这样、那样的问题,需要我们去一一解决。如他们识别不出来或是看不清的字,用缺字符表示,这样就需要我们去翻阅原文将其补全;有些打不出来的字,他们使用造字法打出来后,在数据库中却无法进行检索,这也需要我们去解决,这些无疑都会增加我们的校对工作量,更何况我们要创建的是一个有20万余条全文资料库、预计逾2亿字,这样一个海量数据的校对,真是不可想象的。尽管我们与识别单位签订的合同是确保错误率在万分之三以下,但对数据的校对还是不可省略的,如此之大的校对的工作量,无意之中也会影响数据库的创建速度和质量。
这些困难给我们造成了很大的困惑,到底该如何解决这些难题呢?我们希望有关的图书馆同仁能指点迷津,帮我们早日解决这些难题及困惑。同时希望对此项目有兴趣的同仁也能积极参与,共同为完成这一造福全社会的浩大工程献计献策。
注释
1 复旦大学历史系资料室编:《二十世纪中国人物传记资料索引》(1-4),上海辞书出版社,2010年4月版。
2 见《中国索引》2009年第4期。
于翠艳 复旦大学历史系资料室主任,馆员。
傅德华 原复旦大学历史系资料室主任,研究馆员。
李春博 复旦大学历史系资料室馆员。