网络信息检索工具研究·
专门元数据研究现状及其发展
刘 宇
(南京政治学院上海分院信息管理系 200433)
摘 要 本文通过对国外专门元数据的介绍和比较,分析了专门化作为元数据发展趋势之一的现状、成因,并总结了专门元数据的制定方法。
关键词 元数据 专门化 专门元数据
1 元数据的概念和发展状况
元数据现在普遍定义为关于数据的数据,或关于数据的结构化数据。对于这一简单的定义,各界的专家和学者都对它作了进一步的解释和扩展,虽然目前没有形成一个统一的、更为精确的定义,但是人们对这一概念的以下认识却被广泛接受。
首先,元数据不一定是数字的。正如芝加哥大学图书馆和系统负责人助理Priscilla Caplanrn所指出的那样,元数据并不是什么新鲜事物,“书目记录是元数据,TEI头标也是”,出版商以及图书馆员几个世纪以来一直在制作和使用着元数据。这同样也说明元数据所记录的信息对象也不一定是数字的。图书馆的图书、博物馆的艺术品以及档案馆中的档案向来就是元数据所描述的对象,因此元数据所记录的信息对象既有实体资源也有数字资源。
其次,元数据兴盛于数字时代。尽管元数据的历史可以追溯到手工记录的时代,但元数据的广泛应用和发展却是在电子文档即数字资源大量产生的时代。尤其是为适应网络上海量信息资源的管理和利用,现代元数据以全新的面貌迅速发展起来。随着网络信息资源的普遍开发与利用,元数据益发显得重要而不可或缺。
众所周知,信息资源的内容十分丰富,这与它的信息来源广泛、信息发布自由不无关系。由于互联网能够折射社会生活的各个领域,所以人类生产、生活、科研、娱乐以及其他社会实践活动中产生的各种信息资料都可在互联网上找到。网络信息资源涉及很多语种、关联许多学科,加之许多新事物、新学科往往先在网上披露和报导。另外,与实体信息资源相比,网络信息资源采用的格式更是五彩斑斓。而格式不同,文献的类型也不相同。如在Web页上,既有以HTML语言编制的ASCII文件,也有与其他Web页相链接的文本、图像、声音等信息内容,甚至导致服务器类型也不相同,即网络信息资源的使用与提供信息的站点的软硬件和服务有关。简言之,信息资源呈现出多元化的发展趋势,信息资源的文献类型以及资源的应用环境(包括学科领域、行业部门)也呈现出多样化的发展趋势。与此同时用户对信息资源的利用需求也表现出多元化、专门化的特点,包括用户对信息内容要求的专业化、多层次化,对信息表达形式(文献类型)要求的多样化,以及信息提供途径(如通过Email)要求的多样化等。在这样的背景下,描述资源的元数据也顺应这种发展呈现出多元化,专门化的发展趋势。
由于元数据方案的制定总是在特定应用下开展的。因为这些元数据反应不同领域的实践和原则,适应不同领域用户的不同需求,所以应为不同领域制定不同的元数据。
2 国外专门元数据简介
从20世纪90年代至今,世界各国各业就先后制定出数十种有一定影响的元数据。
2.1 学科领域使用的专门元数据
下文将对几种国外常用的元数据进行分组介绍。
2.1.1 用于教育资源的IEEE LOM和GEM
IEEE LOM(IEEE Learning Object Metadata,学习对象元数据)是由IEEE学习技术标准委员会P148412学习对象元数据工作组建立,用以完整、充分地描述一个学习对象的特征。其描述对象包括任何数字化或非数字化的实体。如多媒体内容、教育内容、教育软件和工具、参考资料等能在学习系统(如计算机培训系统、交互学习环境、智能计算机辅助教育系统、远程学习系统、基于网络的学习系统和协作学习环境)中被使用、参考和复用的对象实体。
IEEE LOM将描述学习对象各方面特征的元素分为9个基本类别:1) General(通用类)、2) Lifecycle(生命周期类)、3) MetaMetaData(宏元数据类)、4) Technical(技术类)、5) Educational(教育类)、6) Rights(权利类)、7) Relation(关系类)8) Annotation(注解类)以及9) Classification(分类类)。各元素下设有子元素来对元素内容加以扩展。
GEM(The Gateway to Educational Materials,教育资源网关)是美国政府教育部支持的项目,致力于组织和整合美国各类网站上的教育资源,以便人们方便地检索和获取。GEM元素集在复用DC全部十五个元素为核心元素的基础上,根据教育资源的特点扩展了8个新的元素,并且对各元素通过增加限制属性的方法加以扩展。这八个新的属性包括:1) Audience(受众)、2) Cataloging(编目信息)、3) Duration(持续时间)、4) EssentialResources(必要资源)、5) Grade(适用年级)、6) Pedagogy(教学要求)、7) Quality(质量评估信息)以及8) Standard(标准)。表1对上述两种元数据元素进行了分类和对照。
表1 学习元数据分析
IEEE LOM
GEM
与其他元数据标准相似的元素
Identifier
Title
Contribute
Language
Description/Annotation(各元素)
Keywords/Classification(各元素)
Version
Format/Size/Duration
Relation(各元素)
Rights(各元素)
Identifier
Title
Greator/Contributor/publisher
Language
Description/source/coverage
subject
Date
Format/Duration
Relation
Rights
type
具有特色的元素
Structure
CatalogEntry
Requirements
Aggregation Level
Education(各元素:Interactivity Level、
Semantic Density、
Intended end user role、
Learning Context、
Difficulty、
Typical Learning Time)
Audience
Cataloging
EssentiaIResource
Grade
Pedagogy
Quality
Standard
2.1.2 用于博物馆藏品或特藏的:CDWA、VRACore和REACH元素集
CDWA(Categories for the Description of Works of Art艺术作品描述类目),是描述艺术作品的结构化工具,主要应用于艺术作品,珍善本和其他三维作品,它的描述重点在于“可动”的对象及其图像。它有27个核心元素,每一核心元素下还设一层或多层子元素。该元数据标准是针对描述艺术品的需求而设计的,艺术品具有物理形态的,也可能同时具有数字化了的图像,此外时空、人物、历史文化等方面的上下文关系在描述一件艺术品时也是非常重要的,CDWA中有很多元素都反映了艺术品特有的这些特点。
VRA(Core Categories for Visual Resources,视频资源核心类目)由美国视觉资料协会制定,是为在网络环境下描述艺术、建筑、史前古器物、民间文化等艺术类可视化资源而建立的元数据标准。目前已推出到第三版本,制定了17项元素。VRA著录单元集合比较简单,尽管VRA的元素大多数能在其他元素中找到对应项目,其元素修饰词的定义却是非常具有特色的。例如对日期元素Date做限定的修饰词就包括Creation(创作)、Design(设计)、Beginning(开始)、Completion(完成)、Alteration(修改)以及Restoration(修复)。
1997年RLG(Research Libraries Group)提出REACH项目,探索如何组织博物馆信息来有效提供博物馆资源的在线服务。为此,RLG规定了REACH元素集(The REACH Element Set)。REACH元素集规定了20个基本元素,它不支持任何方式的扩展。表2对上述三种元数据元素进行了分类和对照。
表2 藏品、艺术作品元数据分析
CDWA
VRA
REACH Element Sets
与其他元数据标准相似的元素
CurrentLocation:Repository Number
Title or Names
Creation
Descriptive Note/Context
Subject matter/Classification
Edition/State
Measurement
Related works/Related Visual
Documentation/Related Textual
References
Copyrights/Restrictions
Object/Work Type
ID NUMBER
Title
Creator
Description
Subject
Date
Measurements
Relation
Source
Rights
Type
Currrent Object ID Number/ Electronic Location & Access
Object Name/Title
Creator/Maker
Notes
Subject Matter
Date of Creation/Date Range
Medium/Materials/Dimensions
Related Objects
Language
Provenance/Place of Origin/Discovery
Current Owner
Type of Object
具有特色的元素
Orientation/arrangement
Inscriptions/Marks
Style/Periods/Groups/Movements
Facture
Critical Responses
Cataloging History
Materials and Techniques
Physical Description
Conditions/Examination History
Conservation/Treatment History
Ownership/Collection History
Exhibitions/Loan History
Record type
Culture
Style/Period
Material
Technique
Location
National Culture of
Creator/Maker
Style/Periods/Groups/Movements
/School
Techniques/Process
Current Repository Name
Current Repository Place
2.1.3 用于地理空间资源的FGDC/CSDGM
目前元数据已成为国际地理信息领域的研究热点,当许多部门开始意识到地理空间元数据标准的重要性时,元数据标准化作为一项独立研究内容的需求也越来越明显。1994年,美国联邦地理数据委员会(FGDC)便开始了元数据的研究,发展了一种以元数据为核心的标准,以便实现数据查询、共享、减少重复生产以及促使其合理使用。地理空间信息包括数字地图、空间扫描图像、附载其他数据(例如人口、经济、历史等)的地理图等,实际上是一定结构的数据集。FGDC定义了数字地理空间数据内容标准(The Content Standard for Digital Geospatial Metadata,CSDGM),其目标是为数字化的地理空间数据提供一组公共术语集及其定义,为地理空间信息开放性描述、交换和处理奠定基础。
FGDC/CSDGM主要由10个元素段组成:1) Identification Information(识别信息)、2) Data Quality Information(数据质量信息)、3) Spatial Data Organization Information(空间数据组织信息)、4) Spatial Reference Information(空间参考信息)、5) Entity and Attribute Information(实体与属性信息)、6) Distribution Information(发布信息)、7) Metadata Reference Information(元数据参考信息)、8) Citation Information(引用信息)、9) Time Period Information(时间信息)以及10) Contact Information(联系信息)。
其中识别信息段、实体与属性信息段、发布信息段、引用信息段、时间信息段以及联系信息段的各元数据元素与其他元数据标准的元素相类,其余则是地理空间元数据所特有的元素。各元素能通过子元素加以扩展。
1994年后期,国际标准化组织面对地理信息数据标准化的趋势,成立了地理信息/地球信息业技术委员会,即ISO/TC 211,用于专门研究和建立地理信息,标准拟制定的元数据标准编号为ISO 15046-15。该标准是在FGDC的基础上,参考其他地理空间元数据,按照国际标准化组织规则制定。
2.1.4 用于手稿档案保存类的EAD
EAD(Encoded Archival Description编码档案描述)由美国国会图书馆网络开发 & MARC标准办公室维护(the Network Development and MARC Standards Office of the Library of Congress),同时美国档案管理员协会(the Society of American Archivists)是其合作者。EAD格式主要用于描述档案和手稿资源,包括文本文档、电子文档、可视材料和声音记录。
EAD格式先用SGML(标准通用标记语言)作为其编码语言,并使用SGML DTD(文档类型定义)定义其内容与结构。EAD DTD将整个EAD元素集合定义为若干层次的元素组合。其中高层元素分为三项:EAD Header(EAD头标)、Frontmatter(前面事项)和Archival Description(档案描述)。
EAD头标描述了档案产生、修订、出版与发行等信息,包括EAD Identification(EAD标识符)、File Description(文件描述,包括Title Statement、Edition Statement、Publication Statement、Series Statement和Note Statement)、Profile Description(概要描述,包括Creation和Language)以及Revision description(修订描述)。可见EAD头标中所含的这些元素内容是可以在其他元数据格式中找到相似元素的。
EAD前面事项含有一个题名页元素,用以生成各档案单位自己的题名页。EAD档案描述项则是对档案内容和相互关系信息的具体描述部分,这些信息以分层的方式组织在一起,包括文件内容、上下文关系以及可选的增补信息。包括描述标识符、附属描述资料、管理信息、编排、传记/历史、检索控制、数字档案对象/数字档案对象组、附注、其他描述数据、组织、范围和内容以及附属成分描述十块内容,众多的元素内容详尽地标识了档案的各种可用信息。
2.1.5 用于政府信息的GILS
GILS(Government Information Locator Service,政府信息定位服务)是一种支持公众搜寻、获取和使用政府公开信息资源的分布式信息资源及利用体系。自1994年12月美国商务部将GILS计划作为联邦政府信息处理标准颁发以来,一些国家和政府组织纷纷开始利用GILS来建立或推动政府信息的广泛利用。GILS基本构建要素是GILS服务器资源目录中对具体资源进行描述的元数据。GILS元数据由若干核心元素组成,并可含有应用系统自定义的元素或与具体应用系统相容的其他Z3950应用规范中定义的元素。表3列出GILS元数据核心元素。
2.1.6 数学标记语言MathML
MathML(Mathematical Markup Language,数学标记语语言),是基于XML(扩展标记语言)的描述数字公式结构和内容的标准方法,支持对基于WEB的数学信息进行表达、传递与处理。MathML通过使用表征元素(Presentation Element)将数学公式分解为若干基本符号的组合,通过使用内容元素(Content Element)将数学公式解析为一个个抽象数学概念的集合,使数学公式不再是可视符号的堆砌,而是具有实际语义的内容结构。这样MathML不仅可以对数学表达式作可视化表征,而且可以明确标记数学表达式的内容含义和组成结构。使用MathML这样的专门领域标准标记语言,对专门领域内的文献进行语义解析和结构解析,使得元数据对资源内部的信息实体、知识内容的揭示能力大大加强了,从而使资源描述由文献款目层次的描述真正进入到内容层次的描述。
此外还有一些领域的元数据标准也得到了一定范围的应用。例如,用于文本文件的TEI(Text Encoding Initiative,文本编码创始项目)、ONIX(ONIX Product Information Standards,在线信息交换产品信息标准);用于数据资料的SDSM(Standard for Survey Design and Statistical Methodology Metadata,调查设计与统
表3 GILS元数据分析
GILS
与其他元数据标准相似的元素
Schedule Number/Control Identifier
Title
Orginator/Contributor
Date of Publication/Date of Last Modification/Record Review Date
Place of Publication
Language of Resource/Language of Record
Abstract
Controlled Subject Index/Subject Terms Uncontrolled
Spatial Domain
Source of Data/Record Source
Access Constraints/use Constraints
Cross Reference
具有特色的元素
Availability
Methodology
Point of Contact
Supplemental Information
Purpose
Agency Program
计方法元数据标准)、DDI(Data Document Initiative数据文档创始项目);用于音乐类的SMDL(Standard Music Description Language,标准音乐描述语言);用于数字图像或动画的TMI(Technical Metadata for Images,数字图像技术元数据)、MOA2数字图像元数据(The Making Of America II)、CDL数字图像元数据(California Digital Library);用于音像资料的MPEG-7(多媒体内容描述接口)标准、MusicBrainz元数据;用于网络资源的IAFA/WHOIS++Templates、SOIF(Summary Object Interchange Format);用于医学资源的OhioLINK医学元数据、NLM Metadata Schema(美国国立医学图书馆元数据集)等。
2.2 应用于各领域所形成的DC专门元数据
在众多的元数据中,DC无疑最受关注。DC元数据全称为都柏林核心元素集(Dublin Core Element Set,简称DC),产生于1995年3月在OCLC所在地Dublin召开的第一届元数据研讨会上。DC只含有15个基本元素,它们是内容描述部分:题名、主题、说明、来源、语种、关联和覆盖范围;知识产权部分;创建者、出版者、其他责任者和权限;外形描述部分;日期、类型、形式和标识符。不难看出这些元素覆盖了上文介绍的各种元数据中“与其他元数据相似的元素”。DC也恰恰是这些元素的最精简的集合。
DC被广泛地应用于各学科领域,形成了一系列的专门领域DC应用,较为著名的有DCEd(DC教育资源应用元素集)、DC-Gov(DC政府机构应用纲要)以及DC-Lib(DC图书馆应用纲要)。其中DCEd的扩展为:补充Audience(读者对象)和Standard(相关标准)元素;为Relation元素增加一个修饰词Conformsto(资源标准);复用了LOM中的InteractivityType(交互类型)、InteractivityLevel(交互程度)和TypicalLearningTime(通常学习时间)三个元素。DC-Gov则作了以下扩展:复用DCEd的Audience元素;为Date元素扩展Acquisition(获取)修饰词,Relation元素扩展IsBasedOn(基于)和IsBasesFor(为…的基础)修饰词,Right元素扩展Access marking(检索标记)、Previous Access marking(前次检索标记)、Access marking change date(检索标记改变日期)、Access rights(检索权限)和Copyright(版权)修饰词,Subject元素扩展Category(种类)和Keyword(关键词)修饰词,Type元素扩展Dossier type(卷宗类型)和Item type(款目类型)修饰词。DC-Lib增加Edition(版本)和Loction(馆藏位置)两个元素;Date元素增加修饰词DateCaptured(获取时间)、Identifier元素增加修饰词identifierCitation(引用标识符);复用DCEd的Audience元素。
3 元数据专门化发展趋势及对元数据应用的启示
上文介绍的几种元数据是众多专门元数据中在世界范围内有较广泛应用、比较具有代表性的几种。通过对上述元数据元素内容进行比较不难发现,各种专门领域的元数据标准中存在着一定数目的相似元素,这些相似元素的存在是像DC这样灵活而简单的通用元数据产生的依据之一。目前通用元数据,主要是DC元数据在各国、各领域的应用和发展开展得热火朝天,取得了众多成果,一时间让应用者们不由得怀疑专门元数据是否还应继续存在?正如DCMI在对DC功能的介绍中所言,DC的出现并不是想要取代其他元数据,正相反,DC的目的是成为网络信息资源描述的基础的跨领域的元数据集,它是要成为这些元数据格式的补充,同来自这些元数据格式的元素相结合,最终达到跨领域资源发现的目的。通用元数据与专门元数据在资源发现中所处的位置和所起的作用是不同的。此外,通用性和专指性从来就是一对矛盾,使用通用元数据来描述专门领域内的文献必然是以降低信息描述的粒度为代价的。从上文中几种元数据相似元素的比较可以看出,尽管它们描述相似的对象,但是在不同的领域中它们的含义以及子元素的扩充都不尽相同。如果期待用一种通用元数据标准取代所有的专门元数据,又期望保有一定的标引粒度,这一元数据势将变得庞大而繁杂,也必定会因为使用的复杂性而在信息爆炸的今天丧失其实际操作性。同时元数据作为资源的“替代品”,用户对其资源发现功能的要求也在不断提高。用户对信息需求的专业性越来越强,因而发展符合不同专业习惯、适用不同专门场合的元数据是元数据发展的必然趋势之一。
元数据专门化的趋势在专门元数据制定和应用中的表现为以下三种情况:
3.1 发展专门的元数据标准
针对领域资源的特殊性,以及领域内用户检索资源的习惯,制定全新的元数据标准。例如上文的LOM元数据。
3.2 统一架构下针对专门的应用环境扩展专门的元数据元素子元素
例如上文的GEM元数据就是在使用DC元数据元素作为核心元素的前提下,扩展描述教育资源对象的专门元数据元素。国内北京大学制定的元数据标准方案,将元数据划分三个部分:来源于DC的核心元素、本馆的核心元素以及专门元素。在这一架构下北京大学图书馆制定了拓片元数据等元数据标准。DCMI组织的各领域DC应用更是这一方法的代表。
3.3 结合专门元数据与专门的标记语言
例如在美国国家科学基金会的NSDL(National Science Digital library)资源集合项目之一GREEN(Green's Functions Research and Education Enhangcement Network)数图项目中,专门标记语言MathML和MatML(Material Makeup Language,材料专门标记语言)被用来与LOM元数据相结合以达到揭示领域相关的专门内容的目的。
本文倾向于不要轻易制定全新的专门元数据,最好选用第二种方法。无论最终采用上述哪一种方法,在制定专门元数据时一定要处理好两个问题,即专指性与通用性的问题以及复用还是新建元数据元素的问题。前者当依据元数据的应用环境而定;后者则应该尽量考虑相关领域的元数据标准,复用知名元数据中的合适元素,这也出于专门领域资源可以更好地融于更大范围内的资源集合的考虑。
参考文献
1 张敏,张晓林.元数据的发展和相关格式.四川图书馆学报,2000(2)
2 郭志红.元数据的多角度透视.图书馆,2002(5)
3 冯项云等.国外常用元数据标准比较研究.http://www.idl.pku.edu.cn/pdf/metadata2.pdf
4 胡海帆等.北京大学古籍数字图书馆拓片元数据标准的设计及其结构.http://www.idl.pku.edu.cn/pdf/metadata4.pdf
5 刘宇,王松林.《DC图书馆应用纲要》概述.图书馆杂志,2002(8)
6 韩夏,张晓林.描述医学资源的元数据方案.图书情报工作,2003(12)
7 吴建中主编.DC元数据.上海:上海科学技术文献出版社,2000
8 王松林.信息资源编目.北京:北京图书馆出版社,2003
9 刘嘉.元数据导论.北京:华艺出版社,2002
10 张晓林.元数据研究与应用.北京:北京图书馆出版社,2002
11 蒋景瞳,刘若,贾云鹏.国际元数据标准的发展和研究现状.http://www.sdinfo.net.cn/ngcc/sdinfo/ProdtectedDoc/mt1.htm
12 周幼兰.元数据环境下国际华文书目交换的展望.http://www.libnet.sh,cn/dcchina/hywj.htm
13 陈微丽.聆听「Metadata发展现况:资源描述与主题检索」演讲有感
14 傅明仪.三种档案描述规则之比较.http://content.ndap.org.tw/result/910918workshop/papers/2-1paper.PDF
15 DLTS-3.1学习对象元数据规范.http://www.edu.cn/html/keyanfz/yuancheng jiaoyu.shtml
16 相关诠释资料之介绍与比较.http://ross.lis.ntu.edu.tw/achievement/metadata.htm
17 《我国数字图书馆标准规范专门数字对象描述元数据规范》子项目主页.http://cdls.nstl.gov.cn/cdls2/w3c/2003/SpcMetadata/
18 Virpi Lyytik en,Pasi T.Tiitinen,Airi Salminen.XML Metadata for Accessing Heterogeneous Legal Databases
19 DCMI Education Working Group.Education Working Group:Draft Proposal.http://dublincore.org/documents/2000/04/30/education-namespace/
20 DCMI-Government Working Group.DC-GOV APPLICATION PROFTLE.http://dublincore.org/groups/government/profile-200111.shtml
21 Rebeccar Guenther.Library Application Profile.http://es.dublincore.org/documents/2002/09/24/library-application-profile/index.shtml
22 Alison M.White.PB Core:the Public Broadcasting Metadata Initiative:Progress Report.http://www.siderean.com/dc2003/Paper81-abstrac.pdf
23 Gregory M.Shreve,Marcia Lei Zeng.Integrating Resource Metadata and Domain Markup in an NSDL Collection.http://www.siderean.com/dc2003/paper62-abstract.pdf
24 By Wendy Duff.Evaluating Metadata at a Metalevel.http://www.archiefschool.nl/docs/duffeval.pdf
25 Getty Art Institute.Categories for the Description of Works of Art.http://www.getty.edu/gri/standard/cdwa/
26 VRA Core Categories,Version 3.0.http://www.vra-web.org/vracore3.htm
27 IEEE 1484 Learning Objects Metadata(IEEE LOM).http://www.ischool.washington.edu/sasutton/IEEE1484.html
28 A review of metadata:a survey of current resource description formats:Work Package 3 of Telematics for Research project DESIRE(RE 1004).[Online,Access Date:1 May,2003]http://www.ukoln.ac.uk/metadata/desire/overview/
刘 宇 南京政治学院上海分院信息管理系讲师。