古籍索引的电子化实践
毛建军
(南京大学中文系 210093)
摘 要 计算机与古籍索引编制的结合开创了古籍索引研究的新领域,带来了古籍索引电子化的时代。本文对这一新领域做了充分的调查并将古籍索引的电子化实践划分为三个阶段。
关键词 机编索引 古籍索引 电子化
古籍索引是专指以古籍为检索范围的索引,属于古籍的整理与研究的范畴[1]。编制古籍索引是一项十分费时费力的工作。长期以来,古籍索引工作都是靠手工完成,往往一部古籍索引的编制要耗费个人毕生的精力。随着计算机技术的快速发展,索引编制开始运用计算机技术,古籍索引工作出现了前所未有的机遇,古籍索引的编制也迎来了电子化时代。
1 计算机与古籍索引编制的早期实践
上世纪70年代至80年代初期是计算机用于古籍索引编制的探索阶段。1978年美国人P ・J ・Ivanhoe运用计算机编制了《朱熹大学章句索引》、《朱熹中庸章句索引》、《王阳明大学索引》、《王阳明传习录索引》、《戴震孟子字义疏证索引》等[2],开始了古籍索引编制的计算机实践。此外,时在德国汉堡大学任职的吴用彤于1975年编制出版了《诗经索引》,这是首次用电脑编制的英译本《诗经》索引[3]。尽管这个版本是个英文文本,但这应该是中国人最早的古籍索引的计算机实践。我国古籍索引的早期计算机实践主要是在台湾进行。计算机用于古籍索引编制的应用首先表现在中文文献数据的处理上。1971年台湾“科委”马志钦教授提议利用计算机做中文资料处理研究。不久,众多大学和电子研究机构也全力投入了这个极具潜力的领域[4]。1972年,台湾清华大学图书馆建立了计算机图书目录,开始了计算机用于图书编目的工作[5]。1984年台湾“中研院”启动“史籍自动化计划”,该计划的目的是“选择对中国传统人文研究具有重要价值的古代文献,建立计算机全文数据库,作为学术研究的辅助工具”[6]。“史籍自动化计划”前期的主要工作是克服汉字输入的困难和数据库模型的建立。经过全体技术人员和文史研究者的努力,“史籍自动化计划”攻关小组为古籍索引的计算机处理积累了大量经验。
2 古籍索引编制电子化的全新阶段
20世纪80年代初到90年代初,古籍索引编制电子化进入了全新的发展阶段。计算机技术的成熟和汉字输入技术的完善,使得古籍索引编制逐步向专题数据库和可检索型数据库方向发展。1984年7月1日《中央研究院古籍资料库的发展概要》起草,标志着台湾古籍索引编制电子化的真正起步。中研院古籍全文资料库的开发宗旨是“为了中华文化的延续,务必要使古籍能活出现代风貌,不可任其在科技的洪流中式微没顶,而解决的方法,则是将古籍以电子媒体表达”(《中央研究院古籍资料库的发展概要》)。此后“汉代墓葬综合研究资料库”、“台湾日据时代户籍资料库”、“清代竹堑地区土地申告书资料库”、“说文解字和玉篇资料库”、“善本书影像资料库”、“二十五史资料库”等相继推出[6]。这些数据库多数实现了字、词、句和名词检索功能。在香港,香港中文大学也编制了“汉达古籍资料库”,该索引可以“详细展示某部古籍中所用单字的使用频率以及在句子中出现的具体情况,甚或某字在古籍中的用例、出处等等,为港人研究提供了极大便利,对于古汉语研究以及古籍辨伪等十分有用”[7]。
由于大陆地区计算机事业起步较晚,在古籍索引与计算机结合的实践上也较晚于台湾。改革开放后,我国在汉字处理、汉字检索系统及汉字终端设备等方面取得长足进展。计算机技术的发展为古籍索引的电子化提供了条件。1983年,全国语言学学科规划会议提出:“随着电子技术的发展,加上古籍整理工作者和计算机工作者的合作,计算机一定能够帮助我们在古籍整理研究方面做更多、更复杂的事情。我们相信,古籍整理研究手段的现代化和方法的现代化,不但是可能的,而且是必然的。”(《古籍整理出版情况简报》第104期)随后,国内开始了古籍索引与计算机结合的实践。1983年秋,江苏省“红楼梦电脑处理”课题启动。参加单位有镇江市科委、镇江市统计局电子计算站和江苏省计算中心。彭昆仑担任课题负责人[8]。
1984年钱钟书先生提出,古籍索引和研究应尽早与计算机结合。在钱钟书的倡导下,中国社会科学院文学研究所栾贵明、田奕等组成了研究小组。经过艰难的探索,“全汉字系统”、“论语数据库”“诸子集成数据库”、“全唐诗检索系统”等数据库相继完成[9]。这些数据库具有7种索引形式:单字索引、人名索引、地名索引、援引著作索引、专有名词索引、补遗索引、衍文索引。“结构如此庞大、洋洋700万言的巨型索引,靠人工编制是不可想象的,光抄写和排序就得有移山之志。而《史记索引》所使用的软件具有处理全部二十五史的能力,充分显示出索引编制电脑化的广阔前景和巨大生命力。可以预测,机编索引将逐渐主导索引编纂领域”[10]。1984年间,深圳大学一批中青年学者提出让古籍插上电脑之翼的研究计划,开始着手开发《红楼梦》多功能检索数据库[11]。1987年10月陕西师大在编撰《十三经辞典》和《十三经词语索引》的基础上开始探索辞书电脑处理系统[12]。
3 古籍索引与古籍全文检索数据库
“从上世纪20年代直到80年代,限于手工作业的耗时、耗力、耗人,全文检索只能成为一个编制索引的理想目标,应用到卷帙浩繁的传统典籍上,实在令人不敢想象了”[13]。因此,全文检索就成为了古籍索引的理想目标。上世纪90年代以来,古籍全文检索系统的开发与建设使得这一理想得到实现,“逐字索引(全文检索)的编制体例现已成为海内外中国古籍索引编制工作的主流”[7]。
1995年台湾罗凤珠教授开发出了“唐诗多媒体网络系统”,系统收入约一百万字的资料,包括四个子系统:诗文分析资料库、研究论著资料库、DIY个人工作平台和网络教学讨论区。该系统具有作者检索、诗题检索、关键词检索和诗句检索功能[14]。尤其是在大陆,参加古籍全文数据库研发的单位既有科研院所,也有部分企业,出现了大量高质量的古籍全文数据库,如北京大学的“《全唐五代宋词》检索系统”、南京师范大学的“《全宋词》检索系统”、广西大学的“《古今图书集成》索引续编”、哈尔滨师范大学的“《史记》全文检索系统”等。
全文数据库具有成本低、可检索、可复制等优势,而且占据空间小,可容纳更多的信息资源。其代表作品为1999年底由上海世纪出版集团上海人民出版社、香港迪志文化出版有限公司推出的《文渊阁四库全书》电子版。该产品使用ISO/IEC10646-Unicode/CJK进行统一编码汉字,保证了文字识别的有效性。香港迪志《文渊阁四库全书》电子版除了采用文字字符录入保证全文高效检索外,还通过联机字典和原文图像对照向用户提供了异体、通假、简繁、正讹、新旧、古今、形近等关联功能,大大提高了其索引价值[15]。因此,香港迪志《文渊阁四库全书》电子版自投放市场以来,倍受欢迎。可以说,香港迪志《文渊阁四库全书》电子版无论是从技术上还是从市场上来讲,堪称划时代的杰作。
20世纪末,随着国际互联网的快速发展,全文数据库又迎来了新的机遇。全文数据库的超链接性、超检索性以及自动平台转换都让古籍索引呈现全新的面貌。台湾开发的有中研院史语所的“古籍资料库”(其数据类别有影像处理、全文检索、书目及档案检索三大类型五大资料库)、汉学研究中心的“典藏目录及数据库”以及寒泉网站提供的“寒泉资料库”均可提供全文检索。香港中文大学开发的“甲骨文全文计算机化数据库”、“金文全文计算机化数据库”、“中国传统类书数据库”,也可在线浏览和检索。大陆“书同文”数字化技术有限公司也开发了《四库全书》、《四部丛刊》、《康熙字典》、《永乐大典》的全文检索网络版。另外,北京大学开发的“全唐诗电子检索系统”、南开大学与天津永川公司开发的“《二十五史》全文阅读检索系统”以及北京龙戴特信息技术有限公司开发的“龙语瀚堂典籍数据库”等大型古籍全文数据库均实现了网络检索功能。
4 面临的问题与思考
古籍索引编制电子化具有传统手工编制无可比拟的优越性。电子古籍索引一旦输入完成,可以根据具体需要多次、多途径输出,同时新生成的索引数据不会出现手工编制过程的种种错漏。另外,电子古籍索引还具有快速、高效、成本低廉、检索功能多等优势[16]。尽管如此,古籍索引编制的电子化还面临很多亟待解决的问题,如软件工具与传统索引的结合、资源的共建共享、相关领域的标准制定以及技术更新的影响、技术迁移等诸多问题[17]都是古籍索引编制电子化需要解决的问题。
另外完善已有数据库,逐步扩充其功能,并最终走智能化发展的道路也是古籍索引编制电子化应该思考的问题。古籍索引编制的电子化在技术上已经实现了全文检索的功能和部分标引功能。然而,古籍索引编制电子化要想在未来的学术研究中大显身手,必须走智能化发展的道路。古籍数字化的发展也的确是朝这个方向努力的,“古代文献信息化的重点已由全文检索转移到数据分析,开始了智能化发展的历程。”[18]郑永晓教授也认为“古代文献类数据库在检索查询方面的功能固然十分强大,但对于古典文学研究而言,仍然只是辅助手段。要达到能够参与研究的程度,需要提升计算机在处理文献时的智能程度。因此当今三大尖端技术之一的‘人工智能’参与中文信息处理尤其是古代文献处理便被提上日程,开始进入部分有识之士的视野”[19]。古籍索引编制电子化的自动化处理和智能分析是古籍索引的最终方向和理想目标。
参考文献
1 许逸民.古籍索引释例(上).古籍整理出版情况简报,2002(4)
2 陈东辉.二十世纪古籍索引编制概述.文献,1998(02):69-78
3 陈东辉. 欧美汉学界在中国古籍索引编制领域的成就.古籍整理出版情况简报,2005(1)
4 叶晓珍.电脑摇身,古籍一变――访中研院谈古籍全文检索系统.国文天地,1990(9):16-19
5 程光.台湾数字图书馆的发展与启示.情报资料工作,2001(6):39-40,45
6 罗凤珠.台湾地区中国古籍文献资料数位化的过程与未来的发展方向.五十年来台湾人文学术研究丛书――文献学与图书资讯学.学生书局,2000
7 陈东辉.台港地区所编古籍索引综述.辞书研究,2005(3):212-219
8 彭昆仑.闯入神奇的知识王国――“电脑红学”研究的甘苦谈.国文天地,1990(9):34-37
9 田奕.古籍整理与研究的电脑化.中国文化,1994(1):85-89
10 何小清.我国古籍索引的新发展.辞书研究,1994(4):55-65
11 张卫东,黄贤,赵原璧.让古籍插上电脑之翼高飞――从“带领《红楼梦》进入电脑”说起.国文天地,1990(9):30-33
12 杨允敬.用电脑说文解字――大型辞典电脑化的尝试.国文天地,1990(9):28-29
13 刘蔷.从“引得”到“全文检索”――谈《文渊阁四库全书》.中国索引,2004(1):32-35
14 罗凤珠.携手同行古籍自动化的路:不废江河万古流――D.I.Y.唐诗多媒体网络系统架构设计.国文天地,1995(6):105-111
15 陈秉仁.古文献与数字化――兼述上海图书馆古籍善本光盘系统�历史文献的开发与利用论文选集.上海书店,2000
16 张琪玉.推广文献索引计算机编制法是促进我国索引事业发展的一项重要措施.图书与情报,1996(4):33-36
17 牛振东.对索引现代化问题的若干思考.[2006-06-24]http://www.cnindex.fudan.edu.cn/data_03.htm
18 李铎,王毅.关于古代文献信息化工程与古典文学研究之间互动关系的对话.文学遗产,2005(1):126-135
19 郑永晓.古籍数字化与古典文学研究的未来.文学遗产,2005(5):130-137
附 古籍索引电子资源简表
索引名称 | 开发单位(个人) | 开发时间 | 功 能 与 说 明 |
朱熹大学章句索引 | [美]P.J.Ivanhoe等 | 1978年 | 字、词检索 |
朱熹中庸章句索引 | [美]P.J.Ivanhoe等 | 1978年 | 字、词检索 |
王阳明大学问索引 | [美]P.J.Ivanhoe等 | 1978年 | 字、词检索 |
王阳明传习录索引 | [美]P.J.Ivanhoe等 | 1978年 | 字、词检索 |
戴震原善索引 | [美]P.J.Ivanhoe等 | 1978年 | 字、词检索 |
戴震孟子字义疏证索引 | [美]P.J.Ivanhoe等 | 1978年 | 字、词检索 |
《十三经》全文检索资料库 | 台湾师大陈郁夫 | 1989年 | 字、句检索 |
《诗经》索引 | 吴用彤 | 1975年 | 英文检索;汉堡出版 |
《十三经词语索引》 | 陕西师范大学 | 1999年 | 词语索引;包括《十三经单字索引》、《十三经句子索引》、《十三经专有名词索引》等 |
《十三经新索引》 | 中国广播电视出版社 | 1997年 | 单字索引 |
《论语》逐字索引 | 中国社会科学院 | 1987年 | 单字索引 |
《百衲本二十四史》电子版光盘 | 商务印书馆国际有限公司 | 1998年 | 底本:商务印书馆张元济主编的《百衲本二十四史》;配以全部人名、地名、书名数据库 |
《史记》索引 | 李晓光、李波 | 20世纪末 | 单字索引、人名索引、地名索引、援引著作索引、专有名词索引、补遗索引、衍文索引 |
史记检索系统 | 哈尔滨师范大学 | 不详 | 不详 |
二十五史检索系统 | 台湾中研院资讯所 | 1985年 | 年号查询、人名索引、官职索引、地名索引、名词索引、统计分析 |
先秦诸子百家全文检索系统 | 挪威奥斯陆大学 | 不详 | 单字检索 |
诸子集成检索 | 台湾东吴大学 | 1996年 | 单字检索 |
《皇帝内经》索引 | 台湾高雄市立医院苏贯中 | 不详 | 专题检索 |
诸子集成数据库 | 中国社会科学院 | 1988年 | 单字检索 |
《古今图书集成索引续编》检索系统 | 广西大学、广西金海湾电子音像出版社 | 1999年 | 可进行分类检索、标题检索、布尔检索、图谱检索以及全文检索并具有古今地名之对照、特殊字及考证数据之查询等功能;全部共1.44亿字。 |
儒学词典 | 劳思光 | 1990年 | 分经典、注疏、人物、概念四类,在线检索或阅读 |
《论衡》逐词索引 | 山东社科院语文所 | 不详 | 逐词索引 |
《贞观政要》综合检索系统 | 东北师范大学古籍整理研究所 | 1988年 | 单字索引、专词索引 |
中医十三经通检 | 陕西中医研究院 | 1994年 | 药性相克相辅索引 |
《全唐五代词》索引 | 南京师范大学 | 2004年 | 作者索引、词牌索引、词牌正名索引、首句索引、字频表;索引按照《全唐五代词》(中华书局版)编辑,共计2849首。按作者、词牌、词牌正名和首句的汉语拼音编制索引目录 |
《全金元词》索引 | 南京师范大学 | 2004年 | 作者索引、词牌索引、词牌正名索引、首句索引、字频表;按照唐圭璋《全金元词》制作,共计7316首。按作者、词牌、首句的汉语拼音编制索引目录。 |
《全宋词》索引 | 南京师范大学 | 2000年 | 作者索引、词牌索引、词牌正名索引、首句索引、字频表;按照唐圭璋《全宋词》(中华书局1997版)编制,共21085首。按作者、词牌、首句的汉语拼音编制索引目录。 |
《寒山子诗》索引 | 中国社会科学院姚兆炜 | 1998年 | 逐字索引 |
《高适诗集》索引 | 中山大学于曼玲 | 1999年 | 逐字索引 |
红楼梦电脑检索 | 深圳大学 | 1984年 | 可以进行语言检索(单字、双音字、成语、助词、副词等)、修辞和古代文化等方面的检索 |
全唐诗速检系统 | 中国社会科学院 | 1988年 | 可以在全唐诗中字、诗句、标题、注言、异文和异作者,以及在《全唐诗》中的册数、页码、行数 |
四库系列图书综合索引 | 复旦大学图书馆 | | http://www.library.fudan.edu.cn:8080/guji/skxl2.htm |
古籍题记索引 | 复旦大学图书馆 | | http://www.library.fudan.edu.cn:8080/guji/gjtj.htm |
清人碑传索引 | 复旦大学图书馆 | | http://www.library.fudan.edu.cn:8080/guji/qrbz1.htm |
郭沫若全集文学篇索引.htm | The University of North Carolina | 1996年 | Hsi-chu Bolick (黄熹珠)、Ling-k'uan Huang (黄龄宽)编撰; http://www.unc.edu/~bolick/web-1 |
本表参考文献
1 陈诚.论古典文献数字化.苏州大学硕士论文.2004
2 陈东辉.二十世纪古籍索引编制概述.文献,1998(2)
3 朱小健.古籍整理通用系统及其中字典的编纂.语言文字应用,2000(3)
4 陈东辉.关于古籍索引工作的若干思考.国家图书馆学刊,1997(1)
5 何小清.我国古籍索引的新发展.辞书研究,1994(4)
毛建军 1971年生,男,汉族,河南潢川县人。南京大学中文系文献学专业05级博士生,主要从事古籍整理与出版研究。发表学术论文20篇。