电子版《古今图书集成索引》2.0版简介林仲湘

发布时间：2018-09-25 浏览次数:30

电子版《古今图书集成索引》2.0版简介

林仲湘

（广西大学文学院广西南宁 530004）

一、研究成果的主要内容

本项目的成果是电子版《古今图书集成索引》2.0版，刻在一张CD－ROM上。

根据《古今图书集成》分类的特点和标目式多字段数据库的功能，本版索引建立52个数据库，达1189013条记录，共38359673字，是当今最大的索引。

内容包括：经纬目录数据库、各种索引数据库以及附录。

㈠《经纬目录数据库》

目的是把“经纬交织”的分类特点充分揭示出来。10个纬目作为字段，经目中6汇编32典6117部都作为记录，竖经横纬，正好体现“经纬交织”。既可以查找经目，又可以查找纬目，还有校勘记、参见条、相关部。值得注意的是参见条，有其特殊作用：(1)挖掘信息，指出该部的异名及相关的名称；(2)沟通古今，选择书中对古奥部名的释义或指出相应的现代概念。相关部的作用是利用电脑的链接功能，把有相关的部相互联系起来。

在光盘上查找部名，可以采用多种方式：除了按“汇考→典→部”逐级点击外；还可以在“部名输入”的空白框中，直接输入部名；也可以点击“全部部名”键，从弹出所有部名的小屏幕中找到所需的部名。查到部名并加以点击，就会在下方显示出该部在精装本和线装本中的起始册页块行码。精装本指1985年中华书局和巴蜀书社联合出版的版本，每页有9块；线装本指1934年中华书局的版本，每页又有A、B两面。

在查到部名的基础上，再点击各纬目的按键，如“汇考”键、“总论”键等。点击某纬目键，下方显示出该纬目在精装本和线装本中的起始册页块行码。

㈡各种索引数据库

1. 按经目和纬目来分：

经目方面的索引数据库包括《乾象典星名数据库》、《岁功典四时年节风俗数据库》、《庶征典天灾数据库》、《文学典诗词曲体裁数据库》、《乐律典乐器及乐曲数据库》、《禽虫典动物数据库》、《草木典植物数据库》、《神异典庙寺观塔数据库》、《考工典亭台楼阁数据库》、《医部药方数据库》、《户口部田制部人口田亩数据库》等。它们的作用是供查找某典或某部的某类事物，如星名、风俗、天灾以及药方、人口田亩等。

纬目方面的索引数据库，大的有《图表数据库》、《艺文数据库》《选句数据库》和《人物传记数据库》，小的有《职方典小汇考数据库》、《医部门项数据库》等一大批。

2. 按一般类别来分：

索引数据库有经纬目录类、图表类、列传类、引书类(含有书名篇名、仅有书名、仅有篇名)、文学艺术类(含艺文、选句、诗词曲体裁、乐器、画名、缩略语)、天文类(含星名、日食月食)、历史类(含历史纪元、历史地名、历史典籍、城池、关隘、故居、陵墓、石名、泉井、桥梁驿站、亭台楼阁)、行政区划类(含职方典小汇考、职方典县名)、医药卫生类(医部门项、医论、药方、药名、药方书名表、养生法及警语)、经济类(含人口及田亩、钱币、酒茶、食品、服饰、仓库)、生物类(含禽虫、草木、禽虫草木书名表)、宗教类(含诸佛、寺庙观塔)。

引书索引，它是类书索引中重要的一种。从数量来说，《古今图书集成》的引书索引数据库有60.6万条记录，远远超过1.0版总的记录数(37万条)；从地位来说，引书索引是类书索引中必不可少的，也是工作量最大而又最艰苦的。其艰苦性集中表现在：需要在原书上逐条钩标；类书的引书来自各种不同的古书，名称不一。有的同一本书有不同的名称，而有的不同的书却有相同的名称。需要做细致的甄别工作。还有些新增的冷僻字需要造字。

还新增了古代历法、历代年号、历代地名、历代典籍、选句、药名等18个索引数据库。仅仅药名索引数据库就有10万条记录，对了解各种中药在众多药方中的分布情况有很大帮助。连同原有的共52个索引数据库(有的相互结合，安排为44个库)，约119万条记录，3836万字。

由于内容增加，特别是有了引书索引，对类书的两大特殊功能(辑轶和校勘)提供极大的方便。还可以从简化字进行检索原书的繁体字，对国内的用户的使用更为方便。另外，通过参见条增强古今的对比、查找等。

在电脑屏幕的显示上，各种索引数据库采用这样的方式：左边排列各个数据库的所有字段(有多有少)，空白框可供直接录入，也供显示查询结果，点击“全部内容”就弹出该字段的全部纪录，可供选择；右边上方的白框显示查询到相同条件的记录，下方显示查询结果的条数和每条记录出自某个汇编、某个典第几卷以及在精装本和线装本中的起始册页块行码。

㈢附录

共有八项：简介、经线要目简释、纬线项目简释、经目出现频率表、新旧字形对照表、简繁字对照表、正异字对照表、参加制作人员。

二、成果的特色

⑴古今合璧，面向新世纪。它是古籍整理与现代科技的结晶，使古代文献焕发现代化的青春，适应21世纪的新要求。

林仲湘：电子版《古今图书集成索引》2.0版简介⑵多学科结合，利用训诂学、版本学、校勘学、文字学以及多种专业知识(如中医、史学等)编制索引数据库。

⑶数量巨大，共有52个索引数据库(有的相互结合，安排为44个库)，约119万条记录，3836万字。是当今最大的索引。

⑷检索方便，既可以通过经纬目录查找，又可以利用各个数据库索引的各个字段进行查找，还能够用简化字检索原书的繁体字。

三、研究成果的重要观点

⑴本课题的重要观点是：标目式多字段索引数据库对原文进行加工，提取有效的信息建立起索引数据库，大大提高了检准率，而且可以从多个字段进行检索。避免了全文索引夹杂大量无用信息(可谓信息垃圾)和只提供单一检索渠道的弊端。当然，全文检索是计算机本身具有的功能，不需要进行加工，检全率高，出错率低；而标目式多字段索引数据库则需要进行加工，而且是既艰苦又枯燥的加工。在中国索引学会举办的研讨会上，我们提出“标目式多字段索引数据库”，指出标目式多字段索引数据库与文本文件的全文索引是各有优势的，可以相互补充；标目式多字段索引数据库有助于提高检索的查准率，得到索引专家们的一致肯定。

作为《古今图书集成》的标目式多字段索引数据库，除了我们之外，国内外尚未见有他人制作。目前互联网上有多种电子版的《古今图书集成》，但是都没有配备标目式多字段索引数据库，只能做目录索引或文本文件的全文索引。

标目式多字段数据库索引则不须依赖文本文件。特点是有多个字段，例如人名索引，除人名外还有朝代、字号、籍贯、校注、所在部名、所引书目等字段，这样就把人名索引中常遇到的难题(同姓名的甄别)，顺利地加以解决了。检索的渠道也更多了，可以通过朝代、字号、籍贯分别进行查找，并且标出殿本各印次的册页码和块码(如1934年的线装本、1984－1988年的精装本以及所在的汇考名、典名、卷次、部名) 。如果把人名跟这些字段组配起来，命中率更高。而全文索引的人名索引碰到同姓名者，用户需要一条一条去核对原书，才能确定是否是要找的那个人。这就存在大量的“索引垃圾”，排除工作需要花费许多精力和时间。

本版索引采用标目式多字段数据库索引，是考虑到多种因素的，主要的原因是，由于《古今图书集成》是类书，已经分类编排好了，应该充分利用类书这一特点，深入挖掘其内在的或相关的信息。例如许多部的纬目中有艺文这一项，已经把有关该部的诗文名篇都集中在一起，可以十分顺利地摘录篇名、作者、朝代、文体等信息，建立起艺文数据库，进行索引。

类书往往有助于编制源数据库。源数据库指的是它本身就提供了用户需要的事实或资料，不必再去查原书。例如本版索引中的《户口部、田制部人口田亩统计数据库》，就属于源数据库。该库列有统计年代、统计范围、人口统计数、田亩统计数、所引书名、所在部名等字段，已经把该部的信息尽行列出，满足了读者的需要。这只有根据《古今图书集成》才做得到。源数据库代表未来的方向，值得大力编制。

利用标目式多字段数据库索引还有个特点，能够对信息和数据进行对比、运算。例如人名有重收的，朝代、字号、籍贯可以互相补充。又如人口统计数字可以把各数字相加成全国的或某一地区的数字。

⑵整理古籍面临的字形问题很多，诸如繁简字、异体字、通假字、古今字、避讳字、错字和新旧字形。而类书由于辑录自群书，来源不一，字形更加复杂，往往同在一页同一个字有不同的写法，甚至同一部名在总目、卷目、小标题也用了不同的写法。对此，本版索引分别情况，作了妥善处理：

保留繁体字(但也能用简化字检索繁体字)、通假字、古今字，一般不改。缺笔避讳字和错字径改，改字避讳字(如玄改为元、胤改为引)则加注说明。

新旧字形只取新字形，旧字形一律改用新字形。这个问题曾作为专题探讨过(我们承当国家语委的《规范汉字表・新旧字形对照详表》的研究)，因为新旧字形涉及面广，据统计达45%以上，目前尚未有新旧字形全部兼收的计算机字库，再则新旧字形的差别是十分细微的，大家都能认同，不会当成两个不同的字看待，改动也无妨。

在异体字处理上，本版索引更有独到之处。采取“保留异体字，又互相调出”的办法，这是充分利用计算机能快速查找的特殊功能。事先编好一份《正异字对照表》存入计算机，检索时遇到异体字，就让计算机到《正异字对照表》中查找，使异体字能互相调取。这样速度有时会慢了一点，但对海峡两岸的用户都很方便，因为目前两岸的正字并不统一(如大陆取“没晋强吴”，而台湾取“��”)，要改动就会左右为难。

⑶本来索引本身并不承担校勘的责任，只引导读者查到原文就算完成任务了，但是如果替读者多考虑一下，原文错了，而索引将错就错，读者又怎么查得到呢？在编制索引中会发现些疑点，认真核对一下，就能刊正。有时不过是举手之劳，有时会多花些功夫，也是值得的。当然，索引仍应以索引为主，校勘是捎带的。

本版索引主要在《经纬目录数据库》和《艺文数据库》多作了些校勘，并写出校勘记。这是因为经纬目录是全书的纲目，稍有错漏，影响面相当广，对其他索引数据库有连锁反应。所以，把总目、卷目、正文三者相互对照，发现问题，辨其正误，写出146条校勘记。至于艺文这项纬目，本是文人理所当然会重视，并且驾轻就熟完全能编好。可惜的是，不知是陈梦雷编纂时间太紧，忙中出错，还是蒋廷锡妄加窜改，错漏实在不少。多是作者姓名弄错和朝代标错标漏，共写出793条校勘记，还不包括大量的以字行、封号爵位代替姓名以及跨朝代需要统一的情况。

至于加注，使用得更为普遍，除了考证性的注文，还有注释性和区别性的注文。例如，对改字避讳字“元”有必要加“当作玄”，予以说明。又如同名的部名“杜鹃部”，应分别注明“动物”或“植物”。

⑷一部完善的索引，需要安排各种参照，使标目互相联系起来。根据国际标准组织(ISO)的规定，参照所揭示的语义关系有三种基本类型，即等同关系、等级关系和相关关系。结合《古今图书集成》数据库的索引实际情况，还可以增加附于关系。所以采用下列参照系统：

第一，等同关系，一般是指异名、别名。在主条目末加注“即为××”、“一曰(亦曰、又曰××)”、“又称××”、“俗称××”、“旧称××”，等等。在参照条目则加注“见××”。

第二，包含关系，指种属概念之间的关系。在主条目末加注“含××”、“内有××”，在参照条目末加注“属××”。

第三，附于关系，在主条目加注“附××”、“另有××”、“与××相对”，在参照条目加注“附于××”。

第四，相关关系，在主条目加注“详××”、“参阅××”。

林仲湘 广西大学文学院教授，中国索引学会学术顾问。