电子资源的书目控制
――MichaelGorman 电子资源书目控制观评述
王 松 林
(南京政治学院上海分院信息管理系 上海 200433)
摘 要 根据Michael Gorman 《元数据还是编目:一个两难的选择》一文得出的结论,评述其对远程电子资源的书目控制观。
关键词 电子资源 书目控制
AACR2的第一编者、美国加州大学图书馆服务部主任Michael Gorman ,曾撰文《元数据还是编目:一个两难的选择》(以下简称《选择》),参加墨西哥国立大学图书馆学研究中心主办的第十六届图书馆学研究学术研讨会并在其会议录上发表。在征得作者的同意后,美国《因特网编目杂志》又在其1999年第2卷第1期上予以转载[1]。
Michael Gorman 认为,根据电子资源(特指远程存取的电子资源,下同)本身的价值,其书目控制方法共有以下四种级次选择:
(1) 完全根据国家和国际标准编制成完整的MARC记录(Be catalogedfully in accordance with national and international standards resulting in fullMARC records, 以下简称“MARC编目”);
(2) 增进型DC“编目”(Receive enriched DublinCore “cataloguing”);
(3) 最低限度的DC记录(Minimal Dublin Corerecords);
(4) 让搜索引擎做(Be left to the mercies ofsearch engines)。
据Michael Gorman 估计,用MARC编目的电子资源数量极少,大约不会超过总数的百分之一或二,而让搜索引擎做的电子资源数量最多,占绝大多数。
1 MARC编目与搜索引擎
关于MARC编目和搜索引擎,Michael Gorman 做了一个有趣的调查。他在当时最热门的搜索引擎AltaVista上检索“Honduras”(洪都拉斯)一词,结果找到266,970条与之匹配的记录(含大量与之无关的记录,下同),即使加上限定词“antiquities”(古代),网上也有86,030条记录出现,而且整个排列杂乱无章,使人无所适从。其中一条“最相关的”记录是:
5. PAPYRUS BOOKS, books on Ancient Art,Antiquities, Archaeology & Numismatics [URL:www.papyrusbooks.com/]
new, rare and out of print books on theArts, Archaeology, and Numismatics from Ancient Greece, Rome,Egypt, Near East, Byzantium 几乎同时,Michael Gorman 在他所在馆的联机目录中输入同一词“Honduras”,结果先出来一份按字顺排列的含有该主题词的一览表,而且每个主题词后均含有该主题词所拥有的款目数(用圆括号括起)。然后他选择一个形式为“Honduras―Antiquities(7)”(洪都拉斯―古代(7个款目))的主题词进行检索,结果出来的是一份反映该主题词内容的简明款目表,其中一张款目的内容是:
Pottery of prehistoric Honduras:regional classification and analysis/Los Angeles:
Institute of Archaeology, University ofCalifornia, Los Angeles, 1993.
312 p.: ill.;28 cm.
Monograph(University of California, LosAngeles. Institute of Archaeology); 35.
Subjects
Indian pottery ― Honduras.
Indians of Central America―Honduras―Antiquities.
Pottery, Prehistoric―Honduras―Analysis.
Pottery, Prehistoric―Honduras―Classification.
Honduras―Antiquities.
CSUF STACK F1505.3.P6 P68 1993
与前例相比,我们不仅可以看到后例文献的ISBD著录,而且可以看到后例上面附加的主题词和分类号,而所有这些都要由懂得编目条例和MARC格式等知识的人处理。当然,使用同一主题词“Honduras―Antiquities”在加州大学庞大的MELVYL联合目录里检索,其出现的款目数要多得多,记录为50条,但是它们也按字顺排列,使人选择自如。由此,MichaelGorman得出结论:无论从逻辑上讲还是从经验上看,基于标准化和可控词表的电子资源MARC编目,其检索和排列比起基于全文的、非控词表及词的计算的关键词检索来更为可取。并且他建议图书馆对电子资源的书目控制要先期花钱,以让未来众多的用户能够快速找到其所需的资源,并达到其满意的检准率和检全率,而不是像Internet和Web那样,把钱花在错误百出的关键词检索上,让众多的用户茫然不知所措而平白无辜地浪费时间。
2 最低限度的DC记录和增进型DC“编目”
使用MARC编目的电子资源虽然相对数不大,但其绝对数却大得惊人。如据OCLC的一份报告显示,全球网站数在1997年还仅为157万个,可到了2001年已猛升至874.55万个。另据CNNIC(中国互联网信息中心)最近公布的调查报告,截至2002年底,中国互联网的网站总数已从2001年4月的238,249个猛升为371,600个,在线数据库的总量已从2001年4月的45,598个猛升为82,929个。图书馆若对这些资源的百分之一或二进行MARC编目,那是不堪重负的。如果加上MARC编目成本(在1996-1997年间,美国国会图书馆平均每条MARC记录的编制成本约87.05美元),更会使图书馆对电子资源采取MARC编目望而却步。为弥补搜索引擎“噪声”太大而MARC编目既费力又费钱的缺陷,MichaelGorman 在《选择》一文中才提出另外两种信息组织的方式―最低限度的DC记录和增进型DC“编目”。
所谓最低限度的DC记录,即根据DC中的15个核心元素组织电子资源。MichaelGorman 通过分析,认为DC15个元素实质上就是一个MARC子集(A sub-set of MARC),它们与AACR2中的术语定义及MARC字段关系密切。
DC元素 | 与AACR2定义及MARC字段的关系 |
Title | 正题名的定义与AACR2同;MARC用245字段 |
Creator | 与AACR2的著者定义一致,仅少了文字“艺术内容”;MARC用1XX字段 |
Subject | 主题的定义与主题词表/叙词表同;MARC用6XX字段 |
Description | 目次附注和摘要附注的定义与AACR2同;MARC用505或520字段 |
Publisher | 出版者的定义与AACR2同;MARC用260/#b子字段 |
Contributor | 附加款目的定义与AACR2同;MARC用7XX字段 |
Date | 出版日期的定义与AACR2同;MARC用260/#c子字段 |
Type | MARC用008定长字段的字符位27代码 |
Format | ISBD(ER)7.5项;MARC用516字段 |
Identifier | 定义与AACR2同;ISBD(ER)7.5.2节和第8项;MARC用02X字段 |
Source | 定义与AACR2同;MARC用76X-78X字段 |
Language | MARC用008字段的字符位35-37代码 |
Relation | 定义与AACR2同;MARC用76X-78X字段 |
Coverage | MARC用008定长字段,及033和043字段 |
Rights | MARC用506和561字段 |
虽然上表中的15个DC元素与AACR2/ISBD(ER)及MARC(确切地说是MARC21)字段存在一定的关联,但它们可不按AACR2/ISBD(ER)的规范编制MARC记录。注意,MichaelGorman 这里用的是记录而不是编目。为使最低限度的DC记录提升至编目层次,Michael Gorman 认为至少要对下列元素进行人工干预。
元 素 | 人 工 干 预 内 容 |
Title | 根据编目条例(如根据AACR2的1.1条款)确定 |
Author或Creator | 根据编目条例确定,包括著者/创建者的选择及其名称形式 |
Subject或Keywords | 根据权威的主题词表和叙词表选用 |
Other contributor | 根据编目条例确定其选择及形式 |
Resource type | 从标准资料标识表中选用一单词或一词组 |
Source | 根据资源评估结果确定并以标准形式给出 |
Language | 从MARC语种代码表中提取代码 |
Relation | 根据资源评估结果确定并以标准方式给出 |
Coverage | 从MARC地理区域和日期代码表中提取地名和时间代码 |
虽然上表中的元素确定基于对资源的评估结果及强调使用规范、可控的数据,即在编目质量上,后一种方式要高于前述最低限度的DC记录,但与前述MARC编目相比,这种规范和控制的程度有限,所以MichaelGorman 将这种编目方式称为增进型DC“编目”(注意:这里的编目加了引号,即与MARC编目相比,它是一种准编目。)
最低限度的DC记录和增进型DC编目均基于DC,因此Michael Gorman 将使用现代元数据编目的方式,称作在费钱的MARC编目和无效的关键词检索之外提供的第三种编目方式(含最低限度的DC记录和增进型DC编目)。
3 电子资源保存与书目控制系统功能
电子资源出现之前,曾有多种物质(从甲骨文到后来的纸质文献等)承担着文献载体的使命。由于其阅读工具――人的眼睛永远不会“过时”,所以只要保存得当,上述传统文献可以数十、数百、数千年地流传下去。这也是国内外图书馆学专业很少或几乎不开文献保存方面的课程的原因所在。
电子资源的出现是技术进步的产物,它的优点自不待言。但是它的缺点同样显著,即电子载体上的信息存取依赖于相关的计算机硬软件,而技术的过时速度又在不断地加快。因此,怎么将电子资源长期保存的确是21世纪图书馆和信息业所面临的巨大挑战,并已引起联合国教科文组织、国际图联和OCLC等机构的高度重视[2-4]。目前,对于电子资源的长期保存通常使用两种策略:一是对原硬件、操作系统和软件进行仿真,二是定期将上一代计算机上的电子资源迁移到下一代计算机上。但是不管是采用仿真策略还是迁移策略,其成本都较高(如仿真)并且需要反复进行(如迁移)。
在《选择》一文中,对电子资源的长期保存问题,Michael Gorman 另辟蹊径,提出了采用近500年来出版商和图书馆员已逐步探索出的一种近乎简明的保存记录知识和信息的方法,即把电子资源(含数字文本和/或数字图像)印在脱酸纸(Acid-freepaper)上,多出复本并广为散发。这样,现在的电子资源可像我们今天可以看到的400年前文献一样,在24世纪让我们的后人也看到。Michael Gorman 之所以在这篇论述电子资源组织问题的文章中提及电子资源长期保存的问题,是因为这与他的书目控制系统功能密切相关。MichaelGorman 认为,所有的书目控制系统均具以下两大功能:一是能快速有效地检索到所需资源,二是有助于人类记录的保存和继续传播。并且他相信,作为图书馆员,独一无二的任务是确保未来几代人能看到我们现在所看到的东西。
现在回到前述电子资源的四种组织方式上来。根据Michael Gorman 的观点,应对那些值得长期保存的电子资源采用MARC编目和/或增进型DC编目;搜索引擎的方法,图书馆可不予考虑;至于最低限度的DC记录,图书馆也可不考虑。上述MichaelGorman 的观点想想不无道理:(1)既然某些电子资源值得长期保存,那么它们就应像传统文献那样受到规范的书目控制,尽管增进型DC编目的规范程度没有MARC编目的规范程度高;(2)如果说网站目录(如Yahoo!等)的功能类似于书中目次,那么AltaVista、Google等的搜索引擎的功能则类似于书中索引,即它们是数百万按倒排索引结构组织起来的网页的全文索引,另外搜索引擎在标引主要由图像、声频和视频组成的网页方面能力有限,对于其他类型的非文本资源(如PDF或Postscript(Google除外)、Flash、Shockwave、Executables、压缩文件(如.zip、.rar等文件)也还存在严重缺陷(标引这些文件的难点主要不是技术上的,而在于它们都不是由HTML文本组成);(3)最低限度的DC记录,由于其规范程度较低,主要供非图书馆员或没有受过编目学训练的人使用,即为资源提供者(如创作者或出版者)自行编制元数据提供可能与方便。其实,DC元数据一开始就是针对因特网资源内容的制作者而设计的,只是后来才引起正规资源描述界,如图书馆、博物馆、政府部门和商业组织的广泛关注。这从DC每次会议都有许多图书馆界、计算机界和网络界的人士参加就可看出[5]。
电子资源的书目控制是一复杂问题,上述Michael Gorman 的观点仅供国内图书馆界人士参考。其实,国内图书馆对电子资源还没考虑采用搜索引擎方法,但对哪些电子资源需要编目以及采用什么级次的编目(含MARC编目和增进型DC编目)手段普遍还较茫然。另外,对电子资源进行有效组织也离不开对电子资源的评估认证。对电子资源的评估认证虽然不属于本文讨论的范围,但为获得评价网站资源质量的最佳信息,推荐使用GenieTyburski的最优因特网信息评估网站:http://www.virtualchase.com/quality/index.html。
参考文献
1 Michael Gorman. Metadata or cataloguing?: a false choice. Journal ofinternet cataloging, 1999(1)
2 Preliminary Draft Charter on the Preservation of the Digital Heritage.http://www.unesco.org./webworld/ica-sio/docs/28session/annex5.rtf3 http://www.ifla.org/webworld/VI/4/annual/ann02.htm
4 http://www.oclc.org/western/news/feb02/feb02-WebDocumentDelivery-gen.htm
5 王松林.信息资源编目.北京:北京图书馆出版社,2003
王松林 南京政治学院上海分院信息管理系教授。