一个具有技术特色的古籍数据库 ――《龙语瀚堂》 王 绯
发布时间:2018-09-25  浏览次数:22

一个具有技术特色的古籍数据库

――《龙语瀚堂》

 

(中国社会科学文献出版社  北京100005)

        古籍电子化的过程是广大古籍工作者的期待,目前的电子化产品由于技术本身的原因,很多的生僻字、古字无法通过电脑和互联网进行研究和传播,《龙语瀚堂》典籍数据库的发布,从根本上解决了这样一个技术瓶颈,数据库自身所附带的《说文解字》和《康熙字典》更成为研究人员便宜而实用的工具。

关键词  《龙语瀚堂》  典籍数据库  四字节  自动累加

    520日上午,囿于盛情难却,我参加了龙戴特信息技术公司关于《龙语瀚堂典籍数据库》的产品说明会。客观地说,在此之前我对将古籍电子化并不十分看好,虽然也有颇多人致力于此。其原因有三,一是虽然现有的计算机技术使大量的古籍实现了网络化、数字化,但是对于一些生僻字、古字却束手无策。中华文化博大精深、源远流长,许多汉字今人看来是古字、生僻字甚或死字,但它们对于历史和文明的考证却是不可或缺。就像我们在探究汉字起源时经常用到的《说文解字》、《康熙字典》等字书类书籍就是因为含有了大量的生僻字,至今仍无法很好地实现通用的数字化版本,这不能不说是一大遗憾。长期的研究过程,我竟然于无奈中对亦步亦趋的造字技术有了颇多心得。其次,或许是有些出版人的愿望吧,“普及传统文化从青少年抓起”,由此带来古籍出版物中大量地使用简体字,而简体字一字多义的特点,非常不利于古籍在传承中保持原汁原味,同时亦降低了其固有的版本价值,更遑论研究价值了。还有一个是错误率的问题,或是录入的底本原因,又或是编校的程序问题,总之,一些所谓的电子化古籍产品倒在无形中培养了我的纠错能力,虽然我并不想拥有或提高这方面的能力。

但是,通过一个多小时的产品演示,我开始发现了一些令人兴奋的东西。常见的数据库多是以量取胜,动辄上亿的文字量。但这个看似不大的《龙语瀚堂》数据库却是以功能、以专业取胜。它是一个专门基于四字节汉字处理的古籍处理系统,本身自带了汉字研究所必须用到的《说文解字》、《康熙字典》等字书类图书。

就我个人而言,最看重的是这个数据库解决了我的造字不便。众所周知,我们现有的电子版的古籍资料多为影印版,不能直接在电脑上进行编辑加工,当然也就不容易传播和再利用。这其实也是我原来不十分看好古籍电子化的原因之一,而长久以来,计算机采用的二字节编码技术只能处理约2万左右的汉字,那些无法处理的生僻字只有通过造字来解决,从而给学术之间的交流和传播带来了很大的不便。如今,这个瓶颈已经被《龙语瀚堂》所突破。这个数据库使用的是被开发者称之为“四字节编码”的技术,它建立在Unicode超大字符集基础之上。对于技术原理问题,我是不懂的,只是知道通过这个技术,计算机可处理的文字种类数达到7万之多,并且可以自由地进行复制、粘贴和互联网发布,从而结束了古籍研究用手抄写,亦步亦趋的造字时代,也为研究者、古文字爱好者查阅、认知生僻字、罕用字提供了便捷的途径,使得在信息化时代,对于中华文化的保存和发展具有极为重要的意义。与此相应的另一个值得称道的则是它便捷、先进的自然语言检索技术。在平常研究过程中翻书查找资料的艰辛,我想大多数古籍研究者都有所体会,而且网络上多是二字节的汉字。这个系统采用的四字节自然语言检索技术,具有切词、分词功能。例如:计算机可以自动判别切分“举杯邀明月”或“明月举杯邀”,也就是说可以由计算机自动分析检索句子中的字和/或词,并进行组合检索。当然这其中也可以包括那些生僻字或者古字等。

另外一个让我感兴趣,甚至是很有期望感和兴奋点的是这个系统具有的图书内容自动累加功能。据演示人员介绍,内容自动累加功能在国内首屈一指,目前已经申请国家专利。它采用全文库技术,不仅可对瀚堂典籍数据库中已有的古籍进行自动累加,也可以自主添加用户的各种图书资料。换句话说,使用者完全可以使用《龙语瀚堂》典籍数据库系统建立自己的电子图书馆,查阅电子图书馆中的任何文字信息,最终解决翻纸版书查出处难的问题。这项功能虽然过去没有接触过,但是它在研究工作中的作用是完全可以预见的,每个人甚至可以通过它来建立一个与自己研究领域或方向相关的小型专业数据库。我揣测它应该不仅仅在古籍研究领域,完全可以用到任何需要数据库内容累加的行业中去,比如说出版社,完全可以利用它将历年出版的书籍整理成库,充分发挥其资源优势,在弹指间查出某篇文章甚至某个人某句话在历本书中的出处、前后语境等,一扫编辑人员查出处找源头,或者搜集海量选题资料的困难。

我所顾虑的繁简体及准确率的问题,也得到了令人非常满意的答复。《龙语瀚堂》典籍数据库能实现简、繁体转换,这样在保证古籍研究者需要的同时也满足了中青年读者的需要。前面已经提到过,我向来对简体的所谓“古籍”颇为担虑,除了价值的大打折扣甚至荡然无存之外,通常将原简体稿件恢复为繁体时,引文多是可疑,这样无疑加大了工作量,使得复核工作繁琐不堪,遂降低效率。进一步说来,古籍的整理和研究还有版本学的范畴,不同的版本蕴涵了不同的文字信息,这是简体版所不能比拟的。再说准确率的问题,出版社通常对差错率是有严格要求的,对字典图书的出版甚至要达到1/10000以内的差错率。《龙语瀚堂》典籍数据库的内容则是按照字典图书的出版要求将差错率控制在1/10000以内,同时配合纸本图书同步出版。高的准确率不但能完好保存古籍,使之永世长存,而且可以满足研究的需要,确切地说在完好保存的基础上才谈得上更广泛使用和研究。

我向来认为技术只有产生了真正的使用价值,才能够被赋予长久的生命力。《龙语瀚堂》数据库系统的技术无疑是先进和实用的。据演示人员介绍,这个数据库的内容也是相对专业的。以《说文解字》、《康熙字典》等字书类数据库为技术,已经或正在整理的特色专题库包括了《殷周金文库》、《中国古印库》、《甲骨文库》、《中国简帛库》等内容。当然古籍录入的底本问题也是非常关键的,《康熙字典》是根据中华书局影本同文书局原版整理,《说文解字》是根据广泛流行的中华书局影本清代陈昌治刻本整理,《尔雅音图》是根据清嘉庆艺学轩影宋刻本,源于郭璞的《尔雅图》,另外像《殷周金文库》则用的是张亚初的本子等等,从而确保了数据库内容的权威性。总的说来,数据库的内容已经包含了古籍研究所必备的一些工具性资料,当然希望今后能够加入更多的专题性内容,象“训诂”、“十通”等,甚至可以考虑大库中再分子库,不过这些只是我个人的一些浅见,说出来以供参考吧。

作为一名古籍工作者,能将中国的古典文化传播下去是我的愿望和追求。非常感谢《龙语瀚堂》和它的开发人员,因为他们提供了一个完全的技术平台,使我们的研究工作能够更为方便简捷地进行,为历史文化的保存和后世的研究作出了贡献。说明会后,我和数据库的制作人王宏源先生进行了一次谈话。了解到出身于清华工科的王宏源先生竟然20多年痴迷于中国传统文化,尤其是字书类图书。他本人曾经著述出版了包括《字里乾坤》、《汉字源头》等多部图书,并被译为英、法等版本,他利用其技术的优势和对古代典籍的热爱,制作完成了《龙语瀚堂》典籍数据库系统,我在感谢的同时有了更多的感动和敬佩,欣慰于古籍研究竟有如此的中青年力量。

本人作为一名古籍工作者,比较了解古籍研究的重要性,在此也是抛砖引玉,向大家介绍一种有效的古籍研究的工具性数据库,同时也希望得到更多关于此方面的信息,从而改善古籍研究的现状,将民族文化发扬光大。


    王      中国社会科学文献出版社资深编辑,多年致力于推广中国古籍研究的数字化。