古籍数字化的现状与发展方向
孟 忻
(吉林大学古籍所 长春130012)
摘 要 古籍数字化取得可喜的成就,也面临诸多要解决的问题。古籍数字化的发展方向是建设一系列符合统一标准且具有较高水准的专题数据库,需要凝聚IT领域和文史研究界两方面的智慧对相关问题深入研究。
关键词 古籍整理 数字化 发展方向
文献数字化管理,文献数据库的发展,推动了古籍数字化的进程。古籍数字化不仅是更有效地保存古籍资源,也是借助现代信息技术使之有序化从而充分挖掘其中隐含的知识内涵,同时也是完善中文网络信息资源的需要。
我国从20世纪80年代开始尝试中文古籍数字化,经过大约20年的探索与开发,已取得了较为显著的成果。至今有至少10余所高校和研究机构根据教学和研究工作需要,进行了古籍数字化项目研究,建立了专门的数据库,如:中国社会科学院的《全唐诗》、《先秦汉魏晋南北朝诗》、《全上古三代秦汉三国六朝文》、《十三经》、《全唐文》、《诸子集成》等,北京大学的《全唐诗》、《全宋诗》,南京师范大学的《全唐五代宋词》,河南大学的“南宋主要历史文献”等数据库。各大型图书馆则根据馆藏特色,进行了古籍数字化的规划和实施,如:中国国家图书馆的“碑帖菁华”、“敦煌遗珍”等特色资源库,上海图书馆的“中国古籍本查阅系统”等。一些致力于古籍数字化的商业机构也为此项工作付出了大量的心血和努力,如:香港的迪志公司利用自身的资金与技术优势,与北京书同文公司以及上海人民出版社共同研制开发了“国家九五电子出版重点项目”――文渊阁《四库全书》电子版,这项成果也是迄今为止世界上最大的一项中文电子出版物工程之一,在整个古籍数字化进程中有重要意义。[1]
中国香港、台湾在古籍数字化方面起步比大陆早。近些年来,香港、台湾和大陆三地区的古籍数字化形成了互为补充、共同发展的局面,为传承中国传统文化做出了贡献。1984年,台湾的最高学术机构“中央研究院”开始了“史籍自动化计划”,意在选择对中国传统人文研究具有重要价值的古代文献,建立《廿五史》全文资料库,作为学术研究的辅助工具。依据“中央研究院”研究人员的专长与兴趣,首先输入和建立的是《食货志》全文数据库,其后《廿五史》全部资料也陆续建立。经过数年的积累和发展,现在全球因特网上,由台湾地区研发的中国古典文献资料已有数亿字,而且检索功能齐全,媒体资料多样。香港的古籍数字化工作由于政府重视,又兼有技术优势,经过20余年的发展,也取得了一定的成就。在香港,从事古籍数字化工程的中坚力量是香港中文大学中国文化研究所下属的“汉达古文献数据库中心”。该中心成立于1988年,是香港中文大学中国文化研究所“古文献数据库研究计划”的专门出版单位。其研究和开发目的“在于将中国古代全部传世及出土文献加以校订、整理,并收入计算机数据库,然后通过各种媒体出版,从而为研究工作者、教育界以及大众提供一重要学术工具与文化宝库。[2-3]文史哲等领域的研究人员作为古籍数字资源的主要使用者,已不满足于在计算机上对古籍做一般的浏览阅读,而开始对古籍数字化提出了新的要求,希望借助计算机技术、中文信息处理技术等新兴手段,对各类古籍数字资源蕴涵的多重信息进行尽可能充分的揭示和组织,使其成为一个立体的文化学术信息知识体。以便使研究人员充分享受到现代数字化技术给学术研究带来的便利,在资料的搜集、整理等环节上节省大量时间;另一方面也使其有可能从中获取新的思路和研究方法,开拓新的研究方向与课题内容。
古籍数字化的发展方向,主要在以下几点:
1 注重特色资源的开发
将纸质书籍文本通过扫描、识别转成数字文本,并通过技术手段装入数据库中,这样的古籍数字化当然又比单纯提供图片阅览前进一步。但如果仅是这样而跬步不前,则仍有很大的局限性。学者们在检索到某个词语后还要去核实纸文本才敢在自己的著作中征引。而且学者难以从这些数字文本中获得更多有价值的其他信息,如版本异同、句读、僻典注释、人名地名的标引等。浩瀚的古籍资源由于历史的原因被分散保存在许多各不相关的部门,而不同的部门都会有自己的一些特色资源,那么在数字化过程中应注意优先顺序的安排,尽量突出自己的特色,不能随波逐流,粗放式发展。
台湾陈郁夫先生主持开发的故宫寒泉古典文献全文资料库就有类似“通鉴、续通鉴等”的特色收藏。在系统开发过程中,一定要有专业学者的深度参与,对文献中出现的相关人名、地名进行必要的标注,同时在数据库程序设计时也要切实考虑古籍文本的复杂性,尽可能由专业学者首先对准备导入数据库的文献进行深度加工。只有精通古籍整理的专业学者和精通程序设计的IT技术专家双方有效的共同努力,才能开发出既符合学科要求,又具有技术前沿水准的数字化古籍数据库。
2 优化选题,整合资源,建设具有较高学术水准的数字化古籍数据库
就目前的古籍数字化现状而言,由于没有统一的规划,相关机构和公司各自为战,所以截至目前的古籍数字化成果多属于重点书籍的数字化,成系统的、特别符合学科特点的、能对历史和古代文学等学科发展有重要影响的数据库尚不多见。笔者认为,建设一系列具备较高学术水准的专题数据库是未来古籍数字化的发展方向。为此,要优化选题,首先要重视版本的选择,它直接影响数字化产品的质量,台湾许多官方建立的古籍全文数据库都比较注重版本,力求将最好的底本收入数据库,而且对于数据库所收的每一种古籍,在版本与校对上皆尽力忠于底本。另外,应该由相关部门来联合从事古籍数字化的主要单位进行有效规划并制订古籍数字化的统一标准,实现其标准化、规范化,从而实现数字化成果的最大范围的共享。而且,有相关部门负责这一方面工作,也可起到协调、督促开发部门对其数字化成果的有效维护。[4]
3 联合开发,资源共享
港台地区古籍数字化成果中有许多系统都能提供全文检索,部分可获得免费检索,而且大多数系统也都支持高级检索。港台和大陆缺乏勾通与合作,双方都造成许多资源的重复开发,又同时存在许多古籍信息孤岛,浪费了巨额人力、物力和财力。大陆具有资源优势,港台地区则有数字化技术优势和经验,两者互为补充,以便充分发挥数字化成果和价值。近年来,港台地区的古籍数字化底本逐渐采用了大陆出版的标点和校勘成果,这也有力地显示出了合作的重要性。
伴随数字化古籍在学术研究和文化建设中愈来愈广泛的应用,古籍数字化本身所涉及的诸多问题也相应地引起IT界和传统文史研究界关心这一领域的人士的极大关注。古籍数字化只有凝聚这两个领域有识之士的共同智慧,才能得到健康、顺利的发展。为此,这两个领域的学者和一切关心传统文化建设尤其是古籍数字化的人士有必要就传统古籍数字化所涉及的各种问题如技术标准、发展方向、选题设置、学科应用等问题予以深入的探讨。
参考文献
1 徐青,石向实,王唯.古籍数字化资源的深度开发.图书情报工作,2007(3):95-97,79
2 李明杰,肖秋惠.中国古籍数字化资源调查与分析.图书馆杂志,2002(5):25-28
3 王立清,董梅香,肖卫飞.港台地区古籍数字化现状分析及启示.图书情报工作,2006(8):90,109
4 郑永晓.古籍数字化对学术的影响及其发展方向.社会科学管理与评论,2006(4)
孟 忻 吉林大学古籍所资料室副研究馆员。