・各类型索引与数据库研究・
“中国科学院图书馆古籍目录网络数据库”解读
罗 琳
(中国科学院图书馆 北京100080)
摘 要 本文描述了“以读者为本,以中文古籍为中心,人性化设计理念,规范化著录”的理想的中文古籍书目网络数据库。解读了基于DC元数据格式的“中国科学院图书馆古籍目录网络数据库”的设计理念。
关键词 中国科学院图书馆 古籍 数据库
中文古籍目录网络数据库是数字图书馆建设的重要部分,它的建立给网络环境下查阅古籍、服务读者提供了崭新的手段。然而,它较之其他印本文献网络数据库的建立要困难、复杂得多,是数字图书馆建设中比较特殊的部分。
“中国科学院图书馆古籍目录网络数据库”(以下简称:“中科院古籍数据库”)始建于2003年初;当年6月录入软件研制完毕;2004年3月,8.4万余条卡片数据录入完毕;2004年9月,开始对录入之卡片数据进行校对、审核。
笔者多年从事古籍编目与研究,十分关注国内外有关中文古籍数据库的建设,调研和考察了一些公共图书馆、大学图书馆所建的中文古籍目录数据库,认为,这些数据库尚存在一些没有很好解决的问题。之所以如此,是因为有的数据库建设较早受当时技术的限制;有些基于CNMARC格式建立的数据库因该格式对古籍资源描述不完善;有些将基于CNMARC格式建立的数据库转换成DC元数据格式,转换中两种格式不能完全对应,字段的界定容易使人产生歧义;读者界面和著录界面不十分人性化;有些是在提出设计理念时没有完全基于网络环境或充分考虑现代手段;有些则是因为软件编制未能实现其设计理念等等。
笔者认为目前理想的中文古籍书目网络数据库应着力解决的主要问题是:建设基于DC元数据格式(本地化)的中文古籍书目网络数据库,其读者界面显示的数据内容,应符合传统描述中文古籍的方式;完整显示丛书子目;从数据录入到数据校对,直至数据审核的每一级,都应该逐级留下每个编目人员完整的编目记录,将个人隐性的中文古籍编目知识显性化;在网络环境下对古籍鉴定怎样定性、定量地科学描述;网络环境下中文古籍着录的规范化等等。
“中科院古籍数据库”正是围绕“以读者为本,以中文古籍为中心,人性化设计理念,规范化著录”四个方面来努力让自己成为服务读者的理想的中文古籍目录网络数据库。
1 以读者为本
中文古籍目录网络数据库建设要体现以读者为本的思想。一般中文古籍目录网络数据库主要解决的是字符集的问题、繁简字的转换问题、数据查询问题、界面问题。“中科院古籍数据库”在此基础上还着重解决了组合数据查询(高级查询)问题和表述问题。
组合数据查询(高级查询)是指:首先,编目过程中所有录入的字、词都是检索的内容,而不是将检索限制于题名、著者、版本等字段;其次,所有字段著录的字或词都可以任意匹配(每次可进行三重匹配),一次性检索查询完毕,而不需要二次检索,从而提高查询的速度和准确度。“中科院古籍数据库”数据查询界面分为“简单查询”和“高级查询”两种。
简单查询见例1:
下拉查询框,可展开为:题名/著者/版本著录/部/分类号/类序号/排架号/题名附注/著者附注/版本附注/综合说明/题名拼音/题名拼音缩写/著者拼音/著者拼音缩写,所有字段都可以进行单一查询。
高级查询见例2:
下拉查询框,均可展开为:题名/著者/版本著录/部/分类号/类序号/排架号/题名附注/著者附注/版本附注/综合说明/题名拼音/题名拼音缩写/著者拼音/著者拼音缩写,所有字段都是匹配查询的内容,可做到查询无盲点。
表述是指:读者数据查询出的条目在所有字段上的表述均应符合传统,应有完整的描述,文字流畅并符合中文的语序和逻辑。
如“中科院古籍数据库”对经义杂记的基本描述见例3:
而CNMARC格式对经义杂记的基本描述见例4:
经义杂记[普通古籍]:三十卷叙录一卷/(清)臧琳撰.―刻本.―,清.―6册.―(线装)
《经义杂记三十卷》与《叙录一卷》是有内在联系的并列关系,中文标点符号“:”的中文定义是“用以提示下文”,显然CNMARC格式著录使用的“:”与中文对此标点符号的定义是矛盾的;另外其对版本的描述就更不符合中文的语序和逻辑。这种不符合中文古籍表述逻辑的地方在CNMARC格式著录中比比皆是。
2 以中文古籍为中心
著录格式与文献著录孰为中心?先有格式,再比照格式的字段进行中文古籍著录,还是比照中文古籍著录的项目编制格式、设计字段?这实际上是以著录格式为中心,还是以中文古籍著录为中心的问题。
人们熟知的MARC格式是一个面面俱到、可著录一切文献的通用格式,加之MARC格式的编制是基于早期计算机技术相对落后时的产物,所以MARC格式对于特殊文献,特别是中文古籍的著录暴露出的缺陷愈来愈明显。中文古籍用CNMARC格式进行著录有明显的“削足适履”之感,为了对应CNMARC格式的字段,在中文古籍著录时,必须将一个完整的描述割裂成几部分,以适应CNMARC字段的定义,如例4。由于CNMARC格式是舶来品,当其各字段的解释应用于中国古文献的著录时,多产生歧义;字段零碎繁杂,录入一条记录不仅需要经过严格的专业训练,而且速度较慢,因而,网络环境下的、理想中的中文古籍数据合成、共享,多少年来也只是梦想。
由于DC元数据的自由、直接、明快、个性化,以及开放性描述等诸多优点;同时可根据中文古籍的特点“因人而宜”地进行扩展和本地化,因此,“中科院古籍数据库”选择了DC元数据格式。其字段见例5:
主要区段 | 详细信息 |
分类区 | 部 分类号 类序号 排架号 |
题名区 | 主要题名 题名附注 题名拼音 |
著者区 | 朝代国别 著者姓名 著作方式 著者附注 著者拼音 |
相关文献区 | 主题题名 题名附注 题名拼音 朝代国别 著者姓名 著作方式 著者附注 著者拼音 |
版本区 | 版本著录 版本时间 版本类型 版本附注 |
统计区 | 册数 函数 装订形式 装订附注 |
说明区 | 综合说明 |
丛书名 | |
丛书子目 | |
责任区 | 创建者 创建时间 提交校对 校对者 校对时间 提交审核 审核者 审核时间 提交发布 |
在此界面中,题名区、著者区、相关文献区可以根据需要自由增加,形成扩展界面。
3 人性化设计理念
人性化设计理念问题是目前网络环境下中文古籍目录网络数据库建库普遍存在的问题。由于需求设计理念的不完整,一些中文古籍目录网络数据库缺乏人性化,质量不高,可信度欠佳,效率低下。
那么,“中科院古籍数据库”之建设应建立在什么需求设计理念之上呢?我认为应该建立在中文古籍著录之“规范性、传统性、完整性、逻辑性、层次性、可扩展性、可逆性、自动性”上。
所谓规范性,是指著录时所有的表述(录入的每一个字、词、句子)都必须符合中文规范的表述方式,包括标点符号的使用。
所谓传统性,是指著录时要用古文献工作者通行的描述语言流畅表达。
所谓完整性,是指描述中文古籍的名称、数量、著者、版本等时应有一个完整的描述句式,在一个字段中必须基本完整描述完一个对象,而不是将一个对象分解在几个字段中进行描述。
所谓逻辑性,是指著录时每一个字段的设置都有其内在的逻辑,而对每个字段的解释必须是唯一的,本质上是为了不给著录者犯错误的机会。
所谓层次性,是指描述复杂的中文古籍存在状态时,应能著录出递增或递减的层次关系;能够清晰明了地著录、反映出复杂中文古籍的结构关系。如:眉公十种藏书六十二卷/明陈继儒撰,是一种多重关系的中文古籍丛书,它有子目,而且子目下还有子目。层次性地著录能给读者描述出丛书子目的递增关系及其相互结构关系。“中科院古籍数据库”著录见例6:
点击“题名/著者”,可查询详细数据及子目(见例7):
主要区段 | 详细信息 |
分类区 | 部 丛 分类号 520 类序号 022 排架号 |
题名区 | 主要题名 眉公十种藏书六十二卷 题名拼音 mei gong shi zhong cang shu liu shi er juan |
著者区 | 朝代国别 明 著者姓名 陈继儒 著作方式 撰
著者拼音 chen ji ru |
版本区 | 版本著录 明崇祯九年(1636年)章台鼎刻本 版本时间 1636年 版本类型 刻本。 |
统计区 | 册数 36 函数 6 装订形式 线装。 |
责任区 | 创建者 Zhangj 创建时间 2003-10-17 提交校对 已提交 校对者 luol 校对时间 2003-11-28 提交审核 已提交 审核者 luolin 审核时间 2003-11-28 提交发布 已提交 |
子目区 | 1 白石樵真稿二十四卷尺牍四卷 2 晚香堂集十卷 3 眉公诗钞八卷 4 眉公秘籍真本十六卷 |
点击“子目区・眉公秘籍真本十六卷”,可查询其子目的子目(见例8):
主要区段 | 详细信息 |
分类区 | 部 丛 分类号 520 类序号 022 排架号 |
题名区 | 主要题名 眉公秘籍真本十六卷 题名拼音 mei gong mi ji zhen ben shi liu juan |
责任区 | 创建者 zhangj 创建时间 2003-11-28 提交校对 已提交 校对者 luol 校对时间 2003-11-28 提交审核 已提交 审核者 luolin 审核时间 2003-11-28 提交发布 已提交 |
子目区 | 1 眉公见闻录四卷 2 太平清话二卷 3 读书镜五卷 4 狂夫之言二卷 5 安得长者言一卷 6 岩栖幽事一卷 7 偃曝谈余一卷 |
丛书区 | 眉公十种藏书六十二卷/明陈继儒撰 |
上述数据查询清楚地显示:眉公十种藏书六十二卷/明陈继儒撰,共有4种子目,其子目之一眉公秘籍真本十六卷又有7种子目。如此向读者简单明了地描述丛书,这在国内外现存的中文古籍目录网络数据库中还未曾见到过。
所谓可扩展性,是指对每一个基本完整描述完的对象都能留有可以解释、可以考证、可以引证的空间(字段),而不受限制;同时主要字段可以自由增加。
所谓可逆性,是指每一条修改或审核后的记录,都同时保存它修改或审核前的记录。因此,可以往复调出修改前和修改、审核后的记录进行比对,总结经验,提高质量,分清责任,将个人的隐性知识显性化,同时亦可以作为教学的范例。“中科院古籍数据库”中,每一条完整记录均由3人次完成:创建者�校对者�审核者。每人处理完一条数据后,都必须“提交”,表示完成,后者方能继续处理。详见例9:
主要区段 | 详细信息 |
分类区 | 部 史 分类号 540 类序号 032 排架号 |
题名区 | 主要题名 明州系年录七卷 题名附注 题名拼音 meng zhou ji nian lu qi juan |
著者区 | 朝代国别 清 著者姓名 董沛 著作方式 述 著者附注 著者拼音 dong pei |
版本区 | 版本著录 清光绪四年(1878年)刻本 版本时间 1878年 版本类型 刻本。 |
| 版本附注前“例言”云:“惟刊刻在光绪戊寅”。 |
统计区 | 册数 3 函数 1 装订形式 线装。 装订附注 与《两浙令长考》合函。 |
说明区 | 综合说明 |
责任区 | 创建者 zhangj 创建时间 2003-08-29 提交校对 已提交 校对者 xx 校对时间 2003-09-26 提交审核 已提交 审核者 luolin 审核时间 2003-09-27 提交发布 已提交 |
以上是已审核提交的纪录,点击[参见记录],调出审核前的已校对提交的纪录(见例10):
主要区段 | 详细信息 |
分类区 | 部 史 分类号 540 类序号 032 排架号 |
题名区 | 主要题名 明州系年录七卷 题名附注 题名拼音 ming zhou ji nian lu qi juan |
著者区 | 朝代国别 清 著者姓名 董沛 著作方式 述 著者附注 著者拼音 dong pei |
| |
版本区 | 版本著录 清光绪刻本 版本时间 版本类型 版本附注 有光绪戊寅年(1878年)作者自序。 |
| |
统计区 | 册数3 函数1 装订形式 装订附注 |
说明区 | 综合说明 |
可以比对出审核者对校对者在“版本”、“版本附注”及“装订附注”进行的修改。从数据录入开始到数据校对,直至数据审核都留下各编目阶段的完整记录,这在国内外现存的中文古籍目录网络数据库中还是首创。
所谓自动性,是指著录时,甲子纪年自动生成公元纪年;册数、函数自动统计总量等。
4 规范著录
为规范“中科院古籍数据库”的著录,2003年6月初笔者撰写了《中国科学院图书馆古籍目录网络数据库著录条例》,在DC元数据格式本地化后根据对字段的取舍、增添和解释、举例又撰写了《中国科学院图书馆古籍目录网络数据库各字段著录解释》,作为规范文档。同时多次与“中国科学院图书馆古籍目录网络数据库项目组”的同仁研讨、反复实践,并且广泛征求其他图书馆同仁的意见,在7月、9月进行了两次修改后定稿,并比照著录之。
《中国科学院图书馆古籍目录网络数据库著录条例》和《中国科学院图书馆古籍目录网络数据库各字段著录解释》作为规范文档,主要是为了将传统的卡片目录承载的有限的显性信息和包涵的许多隐性信息以及中文古籍编目人员过去常常口口相传的知识,有序、规范、客观、定性、定量地显性表达、记录下来,以提高数据的科学性。另外,由于传统卡片目录编制时,隐性信息缺少交流,在理解时易产生歧义,造成随意性,因此《著录条例》和《著录解释》尤其对版本的描述、考证,以及对版本鉴定的依据、引证等都提出了特别严格的要求。
参考文献
1 潘太明.中国机读目录格式使用手册.北京:科学技术文献出版社,2001
2 张晓林.元数据研究与应用.北京:北京图书馆出版社,2002
3 吴建中.DC元数据.上海:上海科学技术文献出版社,2000
4 美国研究图书馆组织.中文善本书机读目录编目规则(非买品).2000
罗 琳 中国科学院图书馆研究馆员,中国科学院研究生院教授,《四库未收书辑刊》主编。