元数据管理理念在医学信息资源领域的应用
徐 维 管志宇
(第二军医大学图书馆 上海 200433) (第二军医大学政治部 上海 200433)
摘 要 本文旨在通过引入元数据的概念与管理理念,促进对医学资源的发现与利用。首先,元数据能帮助建立医学语义网络,实现医学语义检索。其次,元数据能实现生物医学知识的挖掘。最后,通过元数据能建立医学质量控制主题网关,它有一个描述因特网资源的详细的元数据记录的数据库,并且提供访问资源的超链接。因此,目前国内生物医学信息机构的任务应该是建立生物医学领域的元数据系统,即医学核心元数据集,以此为模板来标引著录任何资源以及组织管理任何资源。
关键词 元数据 MESH 知识发现 主题网关
1 引言
生物医学是生命科学最重要的分支,据统计,其文献量在整个科学文献中所占比例超过20%,对其信息量的需求远远超过其他学科,居自然科学各科之首。可以说,任何一个临床医生,无论是否进行临床科研,都离不开医学文献资源。因特网的信息传递功能和遍布全球的网上生物医学资源,为科研工作者提供了基础性网络环境、多种专业查询工具及大量的信息资源,给生物医学信息的查询和获取带来了极大的便利。但同时大量的信息资源给研究人员也带来了不少的困惑。目前的网络资源鱼目混杂、良莠不齐,不准确、不完整、有偏颇的信息充斥于网络,而这种信息对生物医学界的危害是远远大于其他领域的;同时网络搜索引擎的功能有限,成型的规范数据库对知识发掘不足。
目前,研究人员正尝试在生物医学界引进元数据的管理理念,以提高医学科研人员、临床医生轻松驾驭海量医学资源的能力。目前,元数据在医学领域已有应用,如地理信息系统在医学领域中的广泛采用,使其成为医学地理学的重要组成部分;在一些数据库系统和医学网站中采用元数据对其信息资源进行分类、标引、排序等管理。尽管元数据已经逐步进入生物医学界,但对于这一领域的大多数人来说,元数据还是个陌生的概念。那么元数据是什么,它在生物医学领域能做什么,怎样实现它的功能。这是目前医学信息工作人员所要致力研究的重要课题。
元数据,英文名为“metadata”,最本质、最抽象的定义为:dataabout data(关于数据的数据)。它的应用相当广泛,其具体的定义和功能又因应用的领域不同而有所差异。一般来说,在文献信息领域,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估,选择等功能。医学信息领域元数据除了具备在文献信息领域的通用功能外,还有其特殊的作用。
2 元数据能帮助实现医学语义检索
全球生物医学信息通过网络延伸到世界的每个角落,医学研究者和临床医生置身于大量的网络电子文献资源之中,但获取有效的医学资源往往又非常困难,有时甚至如同大海捞针,这主要是因为计算机管理资源和检索资源的能力还处于弱势,机器无法识别自然语言的内容与上下文的真正含义。目前的网络搜索引擎(如GOOGLE、ALTA VISTA、LYCOS)通过自由词进行检索,其反馈的结果往往是无数与内容毫不相关的信息噪音,需要人工选择、识别;而部分网站提供分类目录(如YAHOO)也存在弊端,信息的瞬息变化使许多信息无处归类,信息的交叉重叠又使大量边缘信息可多处归类。这样,特定分类目录下的信息的不确定性,使分类检索成为不常用的检索方法。
熟悉生物医学数据库检索的用户都应该感受过MEDLINE光盘数据库的检索效率。MEDLINE数据库是生物医学领域里结构最严谨、检索效益最高的数据库,因为它有结构化的著录标引语言(即元数据),如题名(TI)、作者(AU)、作者单位(AD)、出处(SO)、主题词(MESH)……而提高检准率和检全率的关键是它开发的基于MESH主题词表的主题词元数据,该主题词表是标引著录医学文献最重要的受控词表,它将表达同一主题的各种名称归纳到唯一的主题词下,使用户通过任意自由词进入数据库都能将表达这一概念的所有文献找到。不仅如此,主题词表提供的主题词树将各主题词的上下位、参照关系完全展示,使用户还能找到与其主题相关的文献信息。如用户通过livercancer、liver tumor、Cancer of Liver;Hepatic Cancer或Hepatocarcinoma等词检索,其结果出入很大,无一检索词能检全文献。但通过检索结果中的主题词找到肝癌这一概念所用的主题词为liverneoplasms,再通过liver neoplasms进行主题词检索,那么有关肝癌这一概念的所有文献都集中在liver neoplasms主题词检索的结果中。而且通过主题树可知道在MESH中liverneoplasms的上位概念为消化系统肿瘤(Digestive System Neoplasms)或肝疾病(Liver Diseases),下位概念有肝细胞腺瘤(Adenoma,LiverCell)、肝细胞癌(Carcinoma,Hepatocellular)、实验性肝癌(Liver Noplasms,Experimental)。又如,在MESH词表中,肝循环(livercirculation)的相关参照为:肠肝循环(Enterohepatic Circulation)、肝门系统(Portal System)、肝动脉(HepaticArtery)、肝静脉(Hepatic Veins)。MEDLINE数据库通过这种树状结构,或更准确地说是点线结合的网状结构,将数据库内容的上下位关系,相关关系显示出来。这种知识的表达又称为知识本体。此思想应用于网络,就可以建成基于知识本体的医学语义网络(medicalsemantic web)。将事先设计的知识本体系统(如主题词表)封装入计算机系统以期实现语义检索。理想的状态是,用户输入自由词,系统自动转化为主题词进行检索,反馈检索结果及相关信息。目前机器无法实现完全人性化检索,但借鉴MEDLINE的标引、检索原理能大大提高检索效率。
目前可将通用元数据标准和医学专业元数据结合使用来实现生物医学领域网络资源的语义检索。通用元数据标准一般采用都柏林核心元数据集(dublin core简称DC),它包含15个基本元素。由于它的通用性和可扩展性,应用它作为网络资源揭示和组织的项目已遍及世界各地,渗透到艺术、人类学、在版编目、教育、商务、数学、医学、科学和技术等各个领域。采用DC作为医学领域的基本元数据标准可提高各机构、学科、领域之间的互操作性,又根据DC较强的扩展性,使之能嵌套医学专业元数据。仍以主题词为例,如资源创建者通过DC元数据标引资源时,在主题词元数据处输入表达资源主题的自由词,系统根据其绑定的受控词表将自由词转化为主题词赋予该资源;而用户在通过自由词检索该主题的资源时,系统也自动将自由词转化为主题词查找,最终找到该资源。其原理如图1所示。通过这种方式,MESH主题词表中的语义关系就可用于网络而建立网络资源的语义网,从而实现语义检索。
图 1
3 元数据能实现生物医学知识的挖掘
元数据在生物医学领域里最有创造性也最难实现的功能,可能就是元数据对生物医学知识的发掘与重组。虽然元数据不等于知识,但它又是信息和知识的源泉,运用相关技术从元数据中发现知识的联系和规律,进而可挖掘出相关知识。
MEDLINE数据库因为基于MESH词表,所以它能将知识的各种关系充分显示,从而为知识的发掘提供了一个源数据库,使之不仅是获取文献信息的数据库,还成为揭示、形成知识的逻辑库。
MESH词表共有19000个主题词,约300000个同义词,103500个化学名称。所有的主题词都置身于主题词树状结构中,每条MEDLINE数据库中的记录平均有10个主题词,这些主题词在MEDLINE中也可称为主题词元数据,它们是由主题专家根据原文内容提炼出来的。这些凝结智力因素的主题词揭示了全文的核心内容。MEDLINE数据库将收录的非结构化的原文和文摘内容转化为结构化数据(主题词),而对结构化数据的挖掘又是知识发现的主要内容,所以MEDLINE成为医学知识发现的重要数据库。
一方面,利用MEDLINE主题词系统可对基因进行聚类。目前利用芯片等先进技术对测序得到序列,这些技术的出现给生物医学研究带来了翻天覆地的变化,有些物种的全部基因序列已经被探明,使人类能从最微观的角度认识世界。但是基因只以最基本的序列呈现出来时,人们了解的是个体,它们之间的关系都无法看清。如,单从TEM-1、TEM-128、SHV-48、SHV-56这几个基因的碱基序列观察,其结构完全不同。这时,不能知道它们之间的关系。从Genbank中对这几个的报道可以检索到这几个的相关文献,而这些文献在MEDLINE数据库中对该相关内容标引的主题词都为beta-Lactamases(β内酰胺酶),从而得知TEM-1、TEM-128、SHV-48、SHV-56这几个基因均为β内酰胺酶基因亚型。所以,如果我们事先对测序的每个基因用具有上下位体系关系和相关关系的MESH主题词和其他编号(如酶学注册号)进行标引,那么就可以聚类获取的基因,并将其置于生物医学体系中。
另一方面,MEDLINE在主题词的基础上,采用副主题词对其进一步限定,使主题表达的内容更为专指、明确。根据这些主题词和副主题词的组配关系解释蕴藏在文献中的联系并将其以结构化的方式表达,开辟了一条行之有效的挖掘文本数据库中的知识的途径。如MEDLINE数据库的一篇文献记录中有x疾病的病因和Y药的副作用这两个主题词,人们自然会想到“Y药引起了x病”。通过查看原文就可以验证疾病和药物之间这种关系的有效性。因此可以认为这些关系具有语义学上的意义,因而可以把它们当作医学知识的一种表现形式。这时,我们引入同现信息原理对MEDLINE数据库中的记录进行分析统计,可以得到许多新的信息供科研人员参考。如,我们在只知道GATA这个名称而不了解它的含义时,通过MEDLINE(年限1997A)数据库输入GATA一词,在反馈的结果中,主要论述了GATA的记录里,DNA-Binding.Proteins和Transcription.Factors两个主题词同现的频率为90%以上,在不阅读文摘和原文的情况下,也能发现GATA应既是转录因子又是结合蛋白。后通过原文得知GATA结构因顺式作用成分的转录作用通过相应的序列与特异的核蛋白结合而完成,故凡与[T/A(GATA)A/G]序列结合的转录因子均称为GATA转录因子或GATA结合蛋白;又通过MEDLINE数据库(年限1997-2004.4)检索到与GATA4相关的记录93条,在93条记录中,含有与肝相关主题词的记录为9条,出现率约为9.6%,这表明GATA4与肝有相关性,但相关性不大或对它们之间关系的研究不多。虽然以上的例子都很简单,通过原文就能证实。但是如果在分析量很大的情况下,无法用人力完成时,运用计算机对结构化主题词进行统计分析,并最终形成知识库的研究就显得非常有效了。但目前要将这种挖掘方法应用于因特网资源的发现还有一定的难度,因为其大量的工作需要专门的主题专家阅读大量的文献并根据理解进行标引。
4 通过元数据建立医学质量控制主题网关
生物医学信息对数据严谨、准确、可靠的程度要求很高。提供用户高质量的医学信息资源,可通过建立医学质量控制主题网关(quality.controlled subject gateway)(即生物医学信息的透明网关)实现,它是建立在语义网络基础上的可信网站。其原理是,首先制定质量体系,对生物医学信息网站及其内容进行评估、选择;然后由图书馆或信息专家根据选择的资源建立主题网关。它有一个描述因特网资源的详细的元数据记录的数据库,并且提供访问资源的超链接,用户可以选择用关键词检索数据库,或者按主题名称浏览资源。
目前生物医学领域值得推崇的主题网关当为CISMeF(http://www.chu.rouen.fr/cismefor http://www.cismef.org),它将法国国内的规范卫生信息资源的270个发布者或出版者进行质量评估,不仅如此,它还对这些出版者发布的信息进行质量控制,包括将出版者的质量评估结果赋予其发布的信息资源。CISMeF采用两种主要的标准工具来组织信息:封装MESH词表的受控词表和元数据标准(包括DC)。
CISMeF元数据信息数据库中一条网上发布的期刊论文“Adolescentpregnancy(青春期妊娠)”记录的著录实例为:
Adolescent pregnancy[http://www.cps.ca/english/statements/AM/am94.02.htm].AdolescentMedicine Committee,Canadian Paediatric Society(CPS).In:Canadian Journal ofPaediatrics 1994;1(2):58-60[prevention,diagnosis,management,counselling,bibliography].keywords:adolescence;pregnancy inadolescence
resource type:clinical practiceguideline
国内的生命科学学科信息门户网站(http://www.lifesciences.cn)也值得一提,它收录的网络资源形成的元数据库,其标引著录比较规范。相比CISMeF的记录实例,生命科学学科信息门户的元数据著录更为具体、到位,但其元数据库中主要是机构网站,没有对具体信息的收录,也没有对网站作详细的质量评估。如对E-CELL项目网站的著录为:
资源网址(URLs):http://www.e.cell.org/
题名[中]:E-Cell项目
题名[英]:E-Cell Project
关键词[中]:细胞/芯片/红血球/信号转导/线粒体/细菌
关键词[英]:Cell/Silico/Erythrocyte/SignalTransduction/Mitochondrion/Bacterial
创建者[英文名]:Institute for AdvancedBiosciences,Keio University
版权[英]:Institute for AdvancedBiosciences,Keio University
国别:Japan
出版者[中文名]:Institute for AdvancedBiosciences,Keio University
资源描述:
这是E-Cell项目的网站。E-Cell项目是一个国际性研究项目,致力于将生物现象的芯片上得到模型和重建的研究……
资源描述[英文]:(略)
内容列表[英]:
Home,AboutUs,Research,Software,News
资源类型:G.项目/计划
资源语种:eng
分类:生物信息学
网站推荐:重要
累计评价:目前没有对此资源的评价
记录创新日期:2004.07.23 13:08:23
记录更新日期:2004.07.27 10:31:03
资源评论
(没有相关的评论)
在质量体系标准基础上建立的元数据库中的关键元数据为信息的来源。以DC为例,与信息来源相关的元数据有信息创建者(DC.Creator)、信息出版者(DC.publisher)、标识资源的标识符(DC.identifier)、二次资源的出处信息来源(DC.source)。如果这些元数据在主题网关中都有完整的著录,那么用户就可通过著录信息了解资源的准确出处,获得资源的可靠来源,使资源仿佛置身于透明的网络中。
5 结语
目前国内生物医学信息机构(如图书馆)的一项重要任务应该是建立生物医学领域的元数据系统,即医学核心元数据集。以此为模板来标引著录任何资源以及组织管理任何资源,使医学信息人员对资源有更好的把握,医学科研人员对信息有更好的利用。
由于DC已成为较成熟的国际通用标准,很多领域的元数据模型的开发均建立在DC的基础上,为具备元数据的互操作性和资源的共享性,医学领域的元数据模型也可采用DC的基本元素与结构。如何在此标准下进行扩展与细化,形成生物医学资源的著录格式与规则,不是个人能在短时间独立完成的,它需要一个工作集体的共同努力和长期积累。
参考文献
1 崔雷等.有关分子生物学的知识发现研究进展.医学情报工作,2004(3)
2 王玮.网络信息资源组织的新模式――主题网关.大学图书馆学报,2004(2)
3 Masys DR.et aI.Use of Keyword Hieraclues to Interpret Cene ExpressionPatterns.Bioinformatics,2001;14(4)
4 Zhu AL等.Automated knowledge extraction for decision model construction:adata mining approach.AMIA Annu Symp Proc.2003:758-62
5 Boulos MN等.Towards a semantic medical Web:HealthCyberMap's tool forbuliding an RDF metadata base of health information resources based on theQualified Dublin Core Metadata Set.Med Sci Monit.2002 Jul;8(7):MT124-36
6 SJ Darmoni等.Seal of transparency heritage in the CISMeF quality.controlledhealth gateway.BMC Med Inform Decis Mak.2004(4):15
徐 维 第二军医大学图书馆馆员。
管志宇 第二军医大学政治部干事。