中文古籍全文数据库的类型与规范 毛建军
发布时间:2018-09-25  浏览次数:34

中文古籍全文数据库的类型与规范

毛建军

(新乡学院中文系  河南新乡 453000

 

    文章调查了国内外中文古籍全文数据库的建设情况,并从古籍全文数据库的媒介和对象角度对其进行了分类,同时提出了古籍全文数据库的标准与规范问题。

关键词  古籍数字化  全文数据库  类型  规范

 

1  中文古籍全文数据库建设概述

欧美地区的中文古籍全文数据库建设成就十分突出。1995年美国国会图书馆开始实施国家数字图书馆计划(NDLP),旨在使国家图书馆特藏文献诸如手稿、地图、古籍进行全文图像的数字化处理[1]。在中文古籍方面,美国国会图书馆正在加速其进程,目前项目有American Memory Pilot ProjectGlobal GatewayAsian portals2]。哈佛燕京图书馆与加拿大麦基尔大学东亚系合作将中国明清时期的妇女著作进行了数字化并上传到网络。该项目包含了目前珍藏在燕京图书馆的54种明清妇女著作以及相关5000位女作家的上万首诗词作品以及数以千计的中国历史地名和近2万张原始图片数据[3]。柏克莱加州大学东亚图书馆于1998年开始实施拓片――古籍数字化计划。目前已完成200余部古籍的数字化工作[4

在日本,日本国立国会图书馆于1998年制定了“国立国会图书馆数字图书馆计划”,计划对传统文化和珍贵典籍优先进行数字化。至2003年已有500余件中文古籍图像数据库。日本东京大学图书馆自1986年开始进行数字化工作,目前已建设完成的中文古籍全文数据库有:富士川文库和霞亭文库。东京大学东洋文化研究所自2003 年开始实施“珍贵汉籍的修补与数据化”计划,2005 年首先公开所内藏的300 种汉籍善本中的200 种影像。京都大学图书馆自1994年就开始选择部分易损古籍优先进行数字化,目前已完成30万页数字化资料并建有PDF文档和全文对照阅读系统。

台湾地区古籍全文数据库的开发与建设早于大陆。19847月台湾中央研究院历史语言研究所与计算中心合作开始开发《二十五史全文资料库》。其后,台湾中央研究院历史语言研究所在此基础上开始逐步实施“史籍自动化计划”,相继建立了先秦两汉史籍、《十三经注疏》、《十通》等大型资料库。

大陆地区古籍全文数据库的建设虽然滞后一些,但由于大陆地区是中文古籍收藏和使用主体,中文古籍全文数据库的进展十分迅速。1987年秋,河南大学开发了《电脑化宋人笔记检索系统》。尽管这还是较为简单的全文数据库,但这一系统是国内首创的宋史高级科研电脑系统。20世纪90年代,我国的古籍全文数据库建设得到了迅速发展。1990918由武汉大学图书情报研究所陈光祚主持研制的国家教委文科博士点基金项目《湖北省地方志全文检索系统》(LOCALHIS)通过鉴定。该系统实现了全文检索并具有法定数检索、人名地名聚类和后控制词表等功能[5]。其中,“检词功能”提供了截词、布尔逻辑检索功能。文中检索则可对某一检索结果进行限制检索以取得更精确的结果,可使用4种位置逻辑算符[6]。

同期,国内科研院所尝试开发建设了大量的古籍全文数据库。中国社会科学院历史研究所开发了《中国古代简牍数据库》,四川大学开发了《全宋文》电脑处理系统,河北大学开发了《续资治通鉴长编》全文检索系统,陕西省中医研究院开发了中医经典古籍《素问》《灵枢》的全文数据库,江苏省中医研究所开发了《伤寒论》《金匮要略》等20余本中医古籍的全文数据库。这些全文数据库为古籍全文检索系统的进一步发展奠定了基础。

除了科研院所积极参与古籍全文数据库的开发与建设外,一些从事数据库开发的数字化公司瞄准古籍光盘市场也积极参与古籍全文数据库的开发,出现了大量高质量的中文古籍数据库。数字化光盘具有图像稳定、容量巨大、成本低廉等优势,因此,数字化光盘一出现就引起了许多古籍收藏单位的青睐。1999年底由上海世纪出版集团上海人民出版社、香港迪志文化出版有限公司推出的《文渊阁四库全书》电子版无论是从技术上还是从市场上来讲,堪称这个阶段的古籍数字化的杰作。

随着数字图书馆技术的发展,国内各大图书馆在进行数字图书馆的规划时,也十分重视馆藏古籍的数字化建设。与科研院所的古籍全文数据库开发相比,图书馆古籍全文数据库建设的重点在于古籍的保护和利用,因此在古籍全文数据库开发上主要以古籍保护的图像数据库为主。国家图书馆从1995年起开始跟踪研发数字图书馆,1998年向文化部提出申请,要求在国家立项实施“中国数字图书馆工程”,同时着手进行数字资源建设。目前已开发的古籍全文数据库有《敦煌遗珍》、《数字方志》、《西夏碎金》和《碑帖菁华》。1996年上海图书馆启动重点科研项目――古籍善本全文光盘,将馆藏古籍善本全部数字化,并分期实现上网服务,以满足海内外读者一览中国古籍善本的需要。1998年,辽宁省图书馆在IBM数字图书馆系统的基础上计划实现古籍的数字化处理并利用IBMTDI数字相机对古籍进行数字化加工[7]。

2  古籍全文数据库的存储方式与类型

古籍全文数据库的存储方式主要有两种:一是图像保存。图像保存古籍文献的方式就是通过数字照相或扫描的方式将古籍文献按原貌逐页录入存储为图像文件并储存在数字光盘或计算机硬盘内从而实现数据的存储、处理、压缩、转换的一种数据储存方式。图像保存古籍文献的方式旨在保留古籍文献原貌,多被图书馆为保存古籍所采用。二是文本保存。文本保存古籍文献的方式就是通过手工录入或文字识别软件录入辅助人工校对的方法将古籍文献文本内容储存在数字光盘或计算机硬盘内从而实现数据的存储、处理、压缩、转换的一种数据储存方式。由于文本录入可以实现全文浏览阅读、检索、统计、智能分析等功能,多被部分科研院所和数字化公司所采用。

根据古籍全文数据库的存储方式,我们可以将古籍全文数据库分为图像版、文字版、图文版三种类型:(1)图像版。图像版古籍全文数据库是指将古籍书页进行原文图像扫描,存储在数字光盘或计算机硬盘等介质上,从而为读者提供文献阅读服务的数据库。图像版古籍全文数据库的优势是:技术实现容易;运行成本低廉;可以保存古籍原貌。图像版数字化古籍的缺陷是:占据空间大;不能检索。(2)文字版。文字版古籍全文数据库是指将古籍文献转换成文本字符的形式,存储在数字光盘或计算机硬盘等介质上,并附加全文检索和超级链接等附加功能,从而为读者提供全文阅读或全文检索服务的数据库。文字版可以利用计算机进行多角度、多范围的检索、排序、分析数据, 并可进行编辑、打印,使用起来非常方便。文字版古籍全文数据库的缺陷是文字输入难度较大,开发成本高。(3)图文版。图文版古籍全文数据库就是图像版与文字版的结合。图文版古籍全文数据库将数据库中加入了原文图像,读者在需要查阅原文时只需点击随机附加的“原文影像”即可,从而实现了两种数据库的优势互补。北京书同文数字化技术有限公司开发的《四库全书》《四部丛刊》全文检索光盘和北京大学开发的“中国基本古籍库光盘”就采取文本与原文影像对照的处理方式,其全文检索数据和底本图像页面版式完全对照,研究者可根据需要随时参考原文图像。显然,图文版古籍全文数据库是较为理想的古籍全文数据库开发模式。

3  古籍全文数据库的标准与规范

统一的数据库格式和规范是建立一个成功的古籍全文数据库的必要前提之一。古籍全文数据库的规范化和标准化决定着数据库自动化和网络化水平,直接影响读者服务质量、馆际间信息的交换和共享。不同的读者服务对象对古籍全文数据库有着不同的期待,对于古籍全文数据库的标准和要求也不尽相同,因此古籍全文数据库能否实现这种标准,是衡量古籍全文数据库的重要参数。

3.1 选题标准

选题是古籍全文数据库建设首先要面对的问题。选题的好坏直接决定着古籍全文数据库的质量。对于不同的开发建设单位而言,由于古籍全文数据库建设的目的和服务对象存在差异,其数据库建设的选题标准也不尽相同。

图书馆等古籍收藏单位在确定古籍全文数据库选题时多注重古籍的保护,因此多数选择了一些珍贵和罕见的古籍作为数字化保存的对象。如国家图书馆的《数字方志》。但是,随着数字图书馆建设的全面展开以及图书馆读者服务理念的深入,图书馆古籍全文数据库的开发建设更注重向读者提供馆藏古籍文献的阅读服务,因此在数据库规划选题时以馆藏古籍文献数字化为目标,逐步将馆藏古籍文献数字化并提供网络阅读服务,如广东省立中山图书馆《民国报刊和古籍全文数据库》。

对于科研院所而言,古籍全文数据库的建设多注重服务于教学和科研,因此在数据库开发建设时多选择已整理的常用古籍文献作为数据库的选题内容,同时更注重数据库的智能化探索。如北京大学中文系开发的《全唐诗分析系统》。

数字化企业在古籍全文数据库开发时往往以市场需求为导向,多选择使用面较为广泛的大型丛书或经典文献作为选题。如北京书同文数字化技术有限公司开发的《四库全书》全文检索电子版光盘;加利华公司制作的《唐诗三百首》光盘、《宋词三百首》光盘。

3.2 版本标准

版本选择是古籍全文数据库的灵魂。一个缺少明确版本标注或选择了低劣版本的古籍全文数据库必然是一个失败的数据库。不管这个数据库服务对象是用于学者研究征引文献的需要,还是服务于普通读者的阅读需要,低劣的版本会让文献征引失去说服力。同样,不标明版本来源的数据库更是难以让人“放心”引用或阅读。

古籍在长期流传过程中存在诸多版本,不同的版本又存在优劣和互补。在传统的古籍整理中,版本的选择和比较是做好古籍整理工作的重要程序。古籍全文数据库的建设在性质上属于古籍整理工作,因此在版本标准上同样遵循版本的选择和比较规范。古籍全文数据库建设中的版本规范主要涉及版本的收集,版本的比较,版本的选择。这个过程必须有专业的古籍整理专家来参与。

另外,数据库一定要明确标明版本来源和依据。然而,从目前已开发的文本型古籍数据库来看,明确标明版本来源和依据的很少。其中原因:一是开发商选择了大量今人整理的成果,为了避免版权纠纷,故意不标明版本。二是所据版本往往是最为常见的版本,而不标明版本,读者难以辨别优劣,企图“蒙混过关”。

3.3 储存标准

�●�采用UNICODE字符集,做到不缺字和错字[8]。UNICODE是目前古籍全文数据库文本处理普遍采用的汉字编码。其内核属于1993年颁布的国际标准ISO/IEC10646编码,它能够提供21亿多个码位。

�●�内核及界面全面中文化。支持ASCII码、CJK-BGB2312BIG5ISO10646;支持中文简体和中文繁体文字或者图像输入和存储。

�●�支持汉字自动切分实现自然语言检索或主题词检索功能。支持任意一致的通配符检索(模糊检索)。从目前已开发的古籍全文数据库看,多为自然语言检索。但自然语言检索具有漏检率高,检索结果包含大量与检索主题不相关文献的缺陷。主题词检索是未来古籍全文数据库的方向。

�●�支持多种文档格式以及多界面的超文本链接和自动索引格式。支持数据多种存放方式。

�●�支持检索结果的浏览、存储、打印和输出。

3.4 系统标准

系统标准表现在系统容易使用性、系统可靠性、系统方便存取性、系统功能性四个方面[9]。系统的使用容易度指使用者主观认定系统操作介面及功能是否容易使用。系统可靠性指使用者浏览的系统表示输出资料与处理结果的一致性。系统方便存取性指使用者能够随时随地的上传或下载资料、随时随地的存取资料。系统功能性指系统的查询与检索功能是否能帮助我找到所需要的资料。为了满足以上四个方面要求系统支持多种硬件平台、服务器和PC机。支持WindowsScounixUnix多种操作系统。支持Client/Server体系结构。支持TCP/IP协议[10];支持Internet Web服务器,提供与标准WWW访问器的网关接口。支持Java,JavaScriptActiveX;支持CGI,NSAPI,ISAPI等多种工作方式;四级安全控制机制,即系统级、数据库级、记录级和字段级[10]。

3.5 界面标准

主界面是一个古籍全文数据库的形象标志。主界面的表现风格能在一定程度上体现开发单位的文化品质与服务理念。好的主界面设计应作到表现风格与内在品质一致,版面构图美观醒目,能给人留下深刻的印象。

评价一个古籍全文数据库主界面的布局设计得是否合理,要看版面整体布局是否均衡、有序,内容编排是否简捷,主次分明,重点突出。一个优秀的古籍全文数据库的主界面还应互通友好。其主要内容应包括全中文菜单、窗口提示、警告及联机帮助、全鼠标操作,以及帮助服务支持、系统安装、系统维护、系统更新等,同时支持多用户同时访问,检准率高,检索速度快。

 

注释:

①马少平等认为古籍全文数据库有以下四种类型:(1)完全图像方式;(2)目录文本、正文图像方式;(3)全文本方式;(4)全文图文对照方式。目录文本、正文图像方式是在“全图像版”基础上添加了目录索引的数据库,读者可方便地根据书名、卷数目录索引迅速指定阅读位置。事实上,目录文本、正文图像方式仍是图像版的古籍全文数据库。(见马少平,姜哲,金奕江,黄宇《大型中文古籍数字化系统的设计与实现》,第八届全国汉字识别学术会议论文集,2002年,页11-16。)

 

参考文献

1 杨彼德.中文古籍数字化保存保护:合作构想.中文善本古籍保存保护国际研讨会论文集. 北京:北京图书馆出版社,2002:21

2  Hwa-Wei Lee. Sinological Resources in the Library of Congress.台北:数字时代汉学研究资源国际研讨会,2004

3 沈津.北美地区中文古籍文献整辑工作近况举要.汉学研究通讯,2005(4):17-21

4 杨王爱.柏克莱加州大学东亚图书馆中文古籍典藏现况与整理计划.中文善本古籍保存保护国际研讨会论文集.北京:北京图书馆出版社,2002:63-64

5 加贝.“湖北省地方志全文检索系统”通过鉴定.图书情报知识,1990(4):40

6 陈睿,陈光祚,谢新洲.湖北省地方志全文检索系统.情报理论与实践,1991(2):29-30

7 乔红霞.关于古籍全文数据库建设工作的思考.河南图书馆学刊,2001(4):58-60

8 张尚英.古籍电子化问题探析.安徽师范大学学报(人文社会科学版).2002(2):244-248

9 杨政达,刘忠阳.数位典藏品质与使用者满意度之研究.铭传大学“数位媒体的发展与再造”学术研讨会.2004

10 王梅.全文检索系统测评的探讨.情报学报,2000(1):11-17

 

毛建军  1971年生,男,河南新乡学院中文系讲师,南京大学在读博士。主要从事电子文献研究。发表学术论文42篇。