古籍目录索引的自动编制 ——以“中华古籍索引库”为例 包菊香
发布时间:2018-09-27  浏览次数:30

古籍目录索引的自动编制

 ——以“中华古籍索引库”为例

 

包菊香

(国家图书馆  北京 100081

 

    为了提高索引编制的效率与质量,利用计算机技术实现古籍目录索引自动编制,其重要性、必要性不言而喻。“中华古籍索引库”在古籍目录索引自动编制方面作出了有益的探索和实践。本文以“中华古籍索引库”为例,介绍索引编制过程中,索引条目抽取、编排等环节的工作思路及经验。

关键词  中华古籍索引库  古籍目录索引  自动编制

 

一、“中华古籍索引库”背景

古籍是中华文明的重要载体,是弥足珍贵的文化瑰宝。为了更好地了解我国现存古籍的保护状况、加强对古籍的保护和管理,国家于2007年初启动了“中华古籍保护计划”。其中,全国古籍普查登记工作是全面了解全国古籍存藏情况,建立古籍总台账,开展全国古籍保护的基础性工作。在古籍普查登记基础上,将由省级古籍保护中心组织本地区各古籍收藏单位编纂出版馆藏古籍普查登记目录,形成《全国古籍普查登记目录》。

各单位对馆藏古籍进行普查登记,形成Excel格式的《古籍普查登记表格》,在此基础上形成《××单位古籍普查登记目录》。各单位古籍普查登记目录按照每部古籍一个款目著录,为每部古籍赋予具有唯一性的款目编号——“古籍普查登记编号”,同时遵循简明扼要、客观著录原则,登记每部古籍的基本项目,必登项目有索书号、题名卷数、著者(含著作方式)、版本、册数、存缺卷数,选登项目有分类号、批校题跋、版式、装帧形式、丛书子目、书影、破损状况等内容。是否登记选登项目,选登项目的多少,将由各单位在保证必登项目的前提下量力而行。

各单位古籍普查登记目录的款目编排方式,国家古籍保护中心不作统一规定,由各单位自行决定。由此,使用者很可能因不了解具体编排方式,很难快速地在目录中查找到自己所要查找的古籍;各单位收藏古籍都是有限的,若使用者不清楚哪些单位收藏自己所要查找的古籍,从而将所有单位的古籍普查登记目录从头至尾翻检一遍,可想而知这是一项多么费时费力的大工程,将给使用者带来多大的不便。

因此,为各单位古籍普查登记目录一一编制索引,以及为《全国古籍普查登记目录》整个丛书编制索引,都是十分必要的。索引对于古籍目录的重要性显而易见。为目录编制索引,将极大提高目录使用的准确性、便捷性,提高使用者的使用效率。

但是我们也应清醒地认识到,索引的编制难度很大,如果是以手工方式为一部古籍目录编制索引,其工作量十分巨大,更不要说为全国两千多家古籍收藏单位的古籍普查登记目录一一编制索引,其工作量之大难以估量。同时,编制索引是一项精确性要求很高的工作,手工编制索引难免造成错误和遗漏,这将大大影响索引的精确性。针对以上两点,国家古籍保护中心考虑利用计算机技术,实现古籍目录索引的自动编制,由此专门开发了“中华古籍索引库”(以下简称“索引库”)系统。

二、索引自动编制的实现

各单位将Excel格式的《古籍普查登记表格》提交国家古籍保护中心。国家古籍保护中心将这些《古籍普查登记表格》导入索引库,利用索引库中的导出功能,将《古籍普查登记表格》中各登记项目按照一定的规则组织起来,导出为Word格式的《××单位古籍普查登记目录》。

在导出目录前,索引库允许用户选择是否附加题名索引或著者索引,允许用户选择索引的具体编排方式,如拼音、部首笔画、四角号码等。考虑到古籍题名与卷数的密切关系,题名索引中的题名是包含卷数的广义题名。索引库最多可以为一部目录附加六种索引,即“题名拼音索引”、“题名部首笔画索引”、“题名四角号码索引”、“著者拼音索引”、“著者部首笔画索引”、“著者四角号码索引”。

之所以为题名、著者各编制三套索引,主要考虑到普通读者、古籍专业读者的不同需求。四角号码索引是古籍目录中常用的一种索引方式,具有准确率高、查找速度快的优势,对于熟悉四角号码的古籍专业读者来说较为便捷。而对于普通读者来说,四角号码规则较多而难以快速上手,不易掌握,因此编制拼音索引、部首笔画索引,以方便普通读者使用,这也是必要的。

索引库要实现索引的自动编制,需要实现两大功能,一是索引条目的自动抽取,即从目录正文中抽取题名、著者,同时指明其所在页码或款目编号;二是索引条目的自动编排,即按拼音、部首笔画、四角号码等方式编排。

(一)索引条目的自动抽取

“索引条目”是指目录正文中的被索引对象,在这里即为题名、著者。索引条目后应指明其在目录正文中的页码或款目编号。考虑到古籍普查登记目录在以后排版过程中有可能造成页码的变动,索引库选择了款目编号——“古籍普查登记编号”作为索引条目的指向。

要从目录正文中抽取题名、著者,首先需要了解《古籍普查登记表格》的格式。在《古籍普查登记表格》中,“题名卷数”、“著者”为两列,若古籍为一题名著者或题名多著者时,可分别在“题名卷数”栏、“著者”栏中填写题名和著者,多个著者间以一个半角空格间隔;一书有多块题名且每块题名各有不同著者时,第一块题名填写在“题名卷数”栏中,对应著者填写在“著者”栏中,第二块及以后各块题名及其著者也填写在“著者”栏中,紧跟在前一著者后,并以“&”符号间隔。例如:

题名卷数

著者

史记一百三十卷

(汉)司马迁撰 (南朝宋)駰集解 (唐)司马索隐

春秋经传集解三十卷

(晋)杜预撰 (唐)陆德明释文&春秋名号归一图二卷 (蜀)冯继先撰&年表一卷

 

1.题名的自动抽取

在索引库中,题名的自动抽取按照以下规则进行:

1)将第一块题名及后面用&表示的各块题名抽取后拼接起来成为一个完整题名,作为一个索引条目。

例如,周易程朱传义二十四卷 (宋)程颐 (宋)朱熹撰&上下篇义一卷 (宋)程颐撰&朱子图说一卷周易五赞一卷筮仪一卷 (宋)朱熹

完整题名为:“周易程朱传义二十四卷上下篇义一卷朱子图说一卷周易五赞一卷筮仪一卷”。这一完整题名将作为一个索引条目。

2)将完整题名按一定规则自动切分为各个小题名,除了第一个小题名外,其他小题名都要作为索引条目,同时注第一个小题名,即索引条目格式为“该小题名【第一个小题名】”。

例如,将上例中的完整题名“周易程朱传义二十四卷上下篇义一卷朱子图说一卷周易五赞一卷筮仪一卷”切分为

1块小题名:周易程朱传义二十四卷

2块小题名:上下篇义一卷

3块小题名:朱子图说一卷

4块小题名:周易五赞一卷

5块小题名:仪一卷

然后,第2块小题名到最后一块小题名都要作为索引条目,如第2块小题名作为索引条目的格式为“上下篇义一卷【周易程朱传义二十四卷】”,第5块小题名作为索引条目的格式为“仪一卷【周易程朱传义二十四卷】”。

3)以方括号([])开头的完整题名或小题名,方括号内第一字下要作索引条目,除了方括号后仅仅是卷数的情况外,方括号外第一字下也要作索引条目。

例如:“[乾隆]郃阳县全志四卷”,在“乾”字、“郃”字下都作索引条目:

“乾”字下:

[~隆]郃阳县全志四卷

“郃”字下:

[乾隆]~阳县全志四卷

如果方括号外仅仅是卷数,如“一卷”、“二卷”等,那么方括号外第一字下就不作索引条目,因为仅仅一个卷数作为索引条目毫无意义。

例如:[浦氏二君诗集]二卷

“浦”字下作索引条目:

[~氏二君诗集]二卷

“二”字下就不作索引条目:

[浦氏二君诗集]~卷

需要说明的是,目前有以下四种情况,索引库未作处理:

1)子目题名

因为子目是选登项目,不是必登项目,因此索引库中暂时未对子目题名进行抽取,即子目题名尚未作为索引条目。索引库下一步考虑予以实现。

2)简要题名

古籍题名的著录一般将正文首卷卷端作为著录来源,而卷端题名常常带有修饰性的冠词,如“御制”、“钦定”、“新刊”、“删定”、“精选”、“重订”、“脂砚斋重评”等。简要题名就是不带这些冠词的题名,如“诗林广记”是“精选古今名贤诗林广记”的简要题名。很多读者往往只知道简要题名,不知道带冠词的完整题名,这样就容易造成漏检,因此不带冠词的简要题名也很有必要作为索引条目。但冠词也不能一概都去掉从而形成简要题名,如“唐百家诗选”是“王荆公唐百家诗选”的简要题名,而“诗注补”却不能成为“王荆公诗注补”的简要题名。因此,索引库中暂时未将简要题名作为索引条目。索引库下一步考虑整理一个较为完善的冠词表,利用冠词表初步形成简要题名,并人工校对,再整理一个在特定题名中非冠词的特例表,从而实现简要题名自动作为索引条目。

3)同名异书

同名异书,即题名相同却不是同一种书,索引库目前尚未加以区别。索引库下一步考虑利用已有工具书,整理《同名异书表》,在编制索引时参考《同名异书表》,在题名后注著者等信息加以区别。

4)同书异名

同书异名,即同一种书,有多个不同题名,索引库目前尚未加以区别。索引库下一步考虑利用已有工具书,整理《同书异名表》,在编制索引时参考《同书异名表》,立参见条目。

2.著者的自动抽取

在《古籍普查登记表格》中,一个著者由“(著者朝代/国别)著者姓名著作方式”构成,多个著者以空格间隔。两人合著,若著作方式相同,前者著作方式可省略,如“(宋)程颐 (宋)朱熹撰”。

在索引库中,著者的自动抽取按照以下规则进行:

1)将每个著者按规则抽取出来,解析为三部分:(著者朝代/国别)、著者姓名、著作方式。解析完毕后,以著者姓名为索引条目,格式为“著者姓名(著者朝代/国别)”。

解析著者时,(著者朝代/国别)解析出来较为容易,而著者姓名、著作方式因为没有特定的格式区分,解析起来较为困难。索引库中采用的是著作方式匹配法:先建立一个著作方式表,存放已知的著作方式,著作方式按字数倒序排列。在解析著者姓名著作方式时,从其末字开始以著作方式最大字数去匹配著作方式表,若无匹配,则减一字再去匹配,依此进行,直至匹配成功,如“某某编辑”,先匹配“编辑”,后匹配“辑”,以免误将“编”解析进著者姓名中。

2)两人以上合著之书,如其朝代及著作方式相同,一般省略其他著者,称“某某等撰”。在这种情况下,索引库匹配完著作方式,得到“某某等”后,将再舍弃末字“等”,以某某作为著者姓名,从而形成索引条目。如“(清)李光地等撰”,其索引条目为“李光地(清)”。

3)历代帝王或后妃撰著之书,著者姓名前加庙号或谥号。在这种情况下,索引库将带庙号或谥号的作为索引条目,同时将不带庙号或谥号的著者姓名也作为索引条目。如“(宋)高宗赵构撰”,其索引条目有二:“高宗赵构(宋)”、“赵构(宋高宗)”。

4)正文卷端所题著者姓名未尽可信者,或正文卷端所题字号别称未能查知其真实姓名者,著者项可加“题”字。在这种情况下,索引库在编制索引时,在该著者对应“古籍普查登记编号”前以星号标识。例如,“古籍普查登记编号”为“110000-0101-0000587”,著者为“题(明)王贞撰”,其索引条目为“王世贞(明)”,在索引条目指向的“110000-0101-0000587”前以星号标识。

需要说明的是,目前有以下两种情况,索引库未作处理:

1)子目著者

索引库中暂时未对子目著者进行抽取,即子目著者尚未作为索引条目。索引库下一步考虑予以实现。

2)同一朝代的同名异人

同名异人,即著者姓名相同而非一人。不同朝代的同名异人,因为索引条目中注著者朝代/国别,所以容易区分。同一朝代的同名异人,索引库目前尚未加以区别。我们考虑索引自动编制完毕后对这种情况进行人工干预,在著者姓名后的括号内,于著者朝代/国别后加注著者籍贯、字号等其他信息加以区别。

(二)索引条目的自动编排

1.汉字拼音、部首笔画、四角号码信息的获取

要实现索引条目按拼音、部首笔画、四角号码等方式自动编排,首先需要整理汉字的拼音、部首笔画、四角号码信息。

汉字的拼音、部首笔画、四角号码信息可以初步从UCDUnihan.zip文件中抽取。UCDUnicode字符数据库(Unicode Character Database)的缩写,由一些描述Unicode字符属性和内部关系的纯文本或html文件组成,可以在Unicode组织的网站获得。UCD 6.1.0中,Unihan.zip由多个描述汉字属性的txt文件组成。这些txt文件包含了很多有参考价值的索引,如汉字部首、笔划、拼音、使用频度、四角号码等。这些索引都是基于一些比较权威的辞典。为了更大程度地保证信息的准确性,从Unihan文件中抽取出来的汉字拼音、部首笔画、四角号码信息还需经过人工校对。

2.汉字拼音、部首笔画、四角号码重码字的先后排序

要按拼音、部首笔画、四角号码排序,还需要解决重码字的先后排序问题。

拼音重码,即拼音相同。Unihan中虽有指明拼音的属性,却没有指明拼音重码先后顺序的属性。因此对于拼音重码问题,索引库中就按笔画顺序排列,笔画少的在前,多的在后。汉字总笔画数可以在Unihan中获取。笔画相同的,按起笔笔形横(一)、竖()、撇(丿)、捺()、折(乙)的顺序排列。

部首笔画重码,即相同部首下相同笔画。Unihan中有指明部首笔画及其重码先后顺序的属性,所以索引库直接采用了Unihan中的相关属性。

四角号码重码,即四角号码相同。Unihan中虽有指明四角号码的属性,却没有指明四角号码重码先后顺序的属性。四角号码取码规则最后一条规定,对于四角同码字,可以取附角附角仍有同码字时,再照各字所含横笔的数目顺序排列。但这一规则仍然不能完全解决重码问题,而且计算机也不好判断汉字所含横笔数目。因此对于四角号码重码问题,索引库中就按笔画顺序排列,笔画少的在前,多的在后。笔画相同的,按起笔笔形横(一)、竖()、撇(丿)、捺()、折(乙)的顺序排列。

3.多音字的处理

拼音排序的难点在于多音字。遇到多音字时,如果将索引条目按其正确读音分别归入相应拼音下,一是取得正确读音需要人工干预,二是读者如果不知道正确读音,容易造成漏检。考虑到拼音索引的使用对象是普通读者,索引库中采用多个读音中的常用读音,如“重”取zhong4,不取chong2

经过汉字拼音、部首笔画、四角号码信息的获取,对于重码字先后顺序、多音字的处理,索引库就可以顺利地自动编排索引条目了。利用计算机技术自动编排索引,高效、便捷、可靠。当然,如果要想索引尽量完善,还是少不了人工干预。

以上是以“中华古籍索引库”为例,对古籍目录索引自动编制过程中工作思路与经验的粗略总结。文中错误不当之处在所难免,请方家批评指正。

 

参考文献

1  南京图书馆编纂.中国古籍善本书目索引[M.上海:上海古籍出版社,2009

2  何远景.古籍目录索引的制作——以《内蒙古自治区线装古籍联合目录》为例[J.中国索引,20041

3  陈莉,韩锡铎.浅谈古籍书目索引的编纂[J.中国索引,20044

 

    包菊香  国家图书馆国家古籍保护中心办公室馆员。