电子版《古今图书集成索引》2.0版简介
林仲湘
(广西大学文学院 广西南宁 530004)
一、研究成果的主要内容
本项目的成果是电子版《古今图书集成索引》2.0版,刻在一张CD-ROM上。
根据《古今图书集成》分类的特点和标目式多字段数据库的功能,本版索引建立52个数据库,达1189013条记录,共38359673字,是当今最大的索引。
内容包括:经纬目录数据库、各种索引数据库以及附录。
㈠《经纬目录数据库》
目的是把“经纬交织”的分类特点充分揭示出来。10个纬目作为字段,经目中6汇编32典6117部都作为记录,竖经横纬,正好体现“经纬交织”。既可以查找经目,又可以查找纬目,还有校勘记、参见条、相关部。值得注意的是参见条,有其特殊作用:(1)挖掘信息,指出该部的异名及相关的名称;(2)沟通古今,选择书中对古奥部名的释义或指出相应的现代概念。相关部的作用是利用电脑的链接功能,把有相关的部相互联系起来。
在光盘上查找部名,可以采用多种方式:除了按“汇考→典→部”逐级点击外;还可以在“部名输入”的空白框中,直接输入部名;也可以点击“全部部名”键,从弹出所有部名的小屏幕中找到所需的部名。查到部名并加以点击,就会在下方显示出该部在精装本和线装本中的起始册页块行码。精装本指1985年中华书局和巴蜀书社联合出版的版本,每页有9块;线装本指1934年中华书局的版本,每页又有A、B两面。
在查到部名的基础上,再点击各纬目的按键,如“汇考”键、“总论”键等。点击某纬目键,下方显示出该纬目在精装本和线装本中的起始册页块行码。
㈡各种索引数据库
1. 按经目和纬目来分:
经目方面的索引数据库包括《乾象典星名数据库》、《岁功典四时年节风俗数据库》、《庶征典天灾数据库》、《文学典诗词曲体裁数据库》、《乐律典乐器及乐曲数据库》、《禽虫典动物数据库》、《草木典植物数据库》、《神异典庙寺观塔数据库》、《考工典亭台楼阁数据库》、《医部药方数据库》、《户口部田制部人口田亩数据库》等。它们的作用是供查找某典或某部的某类事物,如星名、风俗、天灾以及药方、人口田亩等。
纬目方面的索引数据库,大的有《图表数据库》、《艺文数据库》《选句数据库》和《人物传记数据库》,小的有《职方典小汇考数据库》、《医部门项数据库》等一大批。
2. 按一般类别来分:
索引数据库有经纬目录类、图表类、列传类、引书类(含有书名篇名、仅有书名、仅有篇名)、文学艺术类(含艺文、选句、诗词曲体裁、乐器、画名、缩略语)、天文类(含星名、日食月食)、历史类(含历史纪元、历史地名、历史典籍、城池、关隘、故居、陵墓、石名、泉井、桥梁驿站、亭台楼阁)、行政区划类(含职方典小汇考、职方典县名)、医药卫生类(医部门项、医论、药方、药名、药方书名表、养生法及警语)、经济类(含人口及田亩、钱币、酒茶、食品、服饰、仓库)、生物类(含禽虫、草木、禽虫草木书名表)、宗教类(含诸佛、寺庙观塔)。
引书索引,它是类书索引中重要的一种。从数量来说,《古今图书集成》的引书索引数据库有60.6万条记录,远远超过1.0版总的记录数(37万条);从地位来说,引书索引是类书索引中必不可少的,也是工作量最大而又最艰苦的。其艰苦性集中表现在:需要在原书上逐条钩标;类书的引书来自各种不同的古书,名称不一。有的同一本书有不同的名称,而有的不同的书却有相同的名称。需要做细致的甄别工作。还有些新增的冷僻字需要造字。
还新增了古代历法、历代年号、历代地名、历代典籍、选句、药名等18个索引数据库。仅仅药名索引数据库就有10万条记录,对了解各种中药在众多药方中的分布情况有很大帮助。连同原有的共52个索引数据库(有的相互结合,安排为44个库),约119万条记录,3836万字。
由于内容增加,特别是有了引书索引,对类书的两大特殊功能(辑轶和校勘)提供极大的方便。还可以从简化字进行检索原书的繁体字,对国内的用户的使用更为方便。另外,通过参见条增强古今的对比、查找等。
在电脑屏幕的显示上,各种索引数据库采用这样的方式:左边排列各个数据库的所有字段(有多有少),空白框可供直接录入,也供显示查询结果,点击“全部内容”就弹出该字段的全部纪录,可供选择;右边上方的白框显示查询到相同条件的记录,下方显示查询结果的条数和每条记录出自某个汇编、某个典第几卷以及在精装本和线装本中的起始册页块行码。
㈢附录
共有八项:简介、经线要目简释、纬线项目简释、经目出现频率表、新旧字形对照表、简繁字对照表、正异字对照表、参加制作人员。
二、成果的特色
⑴古今合璧,面向新世纪。它是古籍整理与现代科技的结晶,使古代文献焕发现代化的青春,适应21世纪的新要求。
林仲湘:电子版《古今图书集成索引》2.0版简介⑵多学科结合,利用训诂学、版本学、校勘学、文字学以及多种专业知识(如中医、史学等)编制索引数据库。
⑶数量巨大,共有52个索引数据库(有的相互结合,安排为44个库),约119万条记录,3836万字。是当今最大的索引。
⑷检索方便,既可以通过经纬目录查找,又可以利用各个数据库索引的各个字段进行查找,还能够用简化字检索原书的繁体字。
三、研究成果的重要观点
⑴本课题的重要观点是:标目式多字段索引数据库对原文进行加工,提取有效的信息建立起索引数据库,大大提高了检准率,而且可以从多个字段进行检索。避免了全文索引夹杂大量无用信息(可谓信息垃圾)和只提供单一检索渠道的弊端。当然,全文检索是计算机本身具有的功能,不需要进行加工,检全率高,出错率低;而标目式多字段索引数据库则需要进行加工,而且是既艰苦又枯燥的加工。在中国索引学会举办的研讨会上,我们提出“标目式多字段索引数据库”,指出标目式多字段索引数据库与文本文件的全文索引是各有优势的,可以相互补充;标目式多字段索引数据库有助于提高检索的查准率,得到索引专家们的一致肯定。
作为《古今图书集成》的标目式多字段索引数据库,除了我们之外,国内外尚未见有他人制作。目前互联网上有多种电子版的《古今图书集成》,但是都没有配备标目式多字段索引数据库,只能做目录索引或文本文件的全文索引。
标目式多字段数据库索引则不须依赖文本文件。特点是有多个字段,例如人名索引,除人名外还有朝代、字号、籍贯、校注、所在部名、所引书目等字段,这样就把人名索引中常遇到的难题(同姓名的甄别),顺利地加以解决了。检索的渠道也更多了,可以通过朝代、字号、籍贯分别进行查找,并且标出殿本各印次的册页码和块码(如1934年的线装本、1984-1988年的精装本以及所在的汇考名、典名、卷次、部名) 。如果把人名跟这些字段组配起来,命中率更高。而全文索引的人名索引碰到同姓名者,用户需要一条一条去核对原书,才能确定是否是要找的那个人。这就存在大量的“索引垃圾”,排除工作需要花费许多精力和时间。
本版索引采用标目式多字段数据库索引,是考虑到多种因素的,主要的原因是,由于《古今图书集成》是类书,已经分类编排好了,应该充分利用类书这一特点,深入挖掘其内在的或相关的信息。例如许多部的纬目中有艺文这一项,已经把有关该部的诗文名篇都集中在一起,可以十分顺利地摘录篇名、作者、朝代、文体等信息,建立起艺文数据库,进行索引。
类书往往有助于编制源数据库。源数据库指的是它本身就提供了用户需要的事实或资料,不必再去查原书。例如本版索引中的《户口部、田制部人口田亩统计数据库》,就属于源数据库。该库列有统计年代、统计范围、人口统计数、田亩统计数、所引书名、所在部名等字段,已经把该部的信息尽行列出,满足了读者的需要。这只有根据《古今图书集成》才做得到。源数据库代表未来的方向,值得大力编制。
利用标目式多字段数据库索引还有个特点,能够对信息和数据进行对比、运算。例如人名有重收的,朝代、字号、籍贯可以互相补充。又如人口统计数字可以把各数字相加成全国的或某一地区的数字。
⑵整理古籍面临的字形问题很多,诸如繁简字、异体字、通假字、古今字、避讳字、错字和新旧字形。而类书由于辑录自群书,来源不一,字形更加复杂,往往同在一页同一个字有不同的写法,甚至同一部名在总目、卷目、小标题也用了不同的写法。对此,本版索引分别情况,作了妥善处理:
保留繁体字(但也能用简化字检索繁体字)、通假字、古今字,一般不改。缺笔避讳字和错字径改,改字避讳字(如玄改为元、胤改为引)则加注说明。
新旧字形只取新字形,旧字形一律改用新字形。这个问题曾作为专题探讨过(我们承当国家语委的《规范汉字表・新旧字形对照详表》的研究),因为新旧字形涉及面广,据统计达45%以上,目前尚未有新旧字形全部兼收的计算机字库,再则新旧字形的差别是十分细微的,大家都能认同,不会当成两个不同的字看待,改动也无妨。
在异体字处理上,本版索引更有独到之处。采取“保留异体字,又互相调出”的办法,这是充分利用计算机能快速查找的特殊功能。事先编好一份《正异字对照表》存入计算机,检索时遇到异体字,就让计算机到《正异字对照表》中查找,使异体字能互相调取。这样速度有时会慢了一点,但对海峡两岸的用户都很方便,因为目前两岸的正字并不统一(如大陆取“没晋强吴”,而台湾取“����”),要改动就会左右为难。
⑶本来索引本身并不承担校勘的责任,只引导读者查到原文就算完成任务了,但是如果替读者多考虑一下,原文错了,而索引将错就错,读者又怎么查得到呢?在编制索引中会发现些疑点,认真核对一下,就能刊正。有时不过是举手之劳,有时会多花些功夫,也是值得的。当然,索引仍应以索引为主,校勘是捎带的。
本版索引主要在《经纬目录数据库》和《艺文数据库》多作了些校勘,并写出校勘记。这是因为经纬目录是全书的纲目,稍有错漏,影响面相当广,对其他索引数据库有连锁反应。所以,把总目、卷目、正文三者相互对照,发现问题,辨其正误,写出146条校勘记。至于艺文这项纬目,本是文人理所当然会重视,并且驾轻就熟完全能编好。可惜的是,不知是陈梦雷编纂时间太紧,忙中出错,还是蒋廷锡妄加窜改,错漏实在不少。多是作者姓名弄错和朝代标错标漏,共写出793条校勘记,还不包括大量的以字行、封号爵位代替姓名以及跨朝代需要统一的情况。
至于加注,使用得更为普遍,除了考证性的注文,还有注释性和区别性的注文。例如,对改字避讳字“元”有必要加“当作玄”,予以说明。又如同名的部名“杜鹃部”,应分别注明“动物”或“植物”。
⑷一部完善的索引,需要安排各种参照,使标目互相联系起来。根据国际标准组织(ISO)的规定,参照所揭示的语义关系有三种基本类型,即等同关系、等级关系和相关关系。结合《古今图书集成》数据库的索引实际情况,还可以增加附于关系。所以采用下列参照系统:
第一,等同关系,一般是指异名、别名。在主条目末加注“即为××”、“一曰(亦曰、又曰××)”、“又称××”、“俗称××”、“旧称××”,等等。在参照条目则加注“见××”。
第二,包含关系,指种属概念之间的关系。在主条目末加注“含××”、“内有××”,在参照条目末加注“属××”。
第三,附于关系,在主条目加注“附××”、“另有××”、“与××相对”,在参照条目加注“附于××”。
第四,相关关系,在主条目加注“详××”、“参阅××”。
林仲湘 广西大学文学院教授,中国索引学会学术顾问。