依托《全国报刊索引数据库》进行多媒体数据的知识挖掘 庄隽芳
发布时间:2018-09-25  浏览次数:13

依托《全国报刊索引数据库》进行多媒体数据的知识挖掘

庄隽芳

(上海图书馆  200031

    数据挖掘是一种知识发现,是对已知信息进行的一种再利用技术,大量运用于数据库的增值服务。依托《全国报刊索引数据库》开发新型的多媒体专题数据库,不仅能够受到普通读者的喜爱,而且能够为该主题的学术研究提供准确、全面、有效的重要参考,从而挖掘出原有文献数据库的更大的情报价值。

关键词  多媒体数据  数据挖掘  专题数据库

 

数据挖掘是一种知识发现,是对已知信息进行的一种再利用技术,大量运用于数据库的增值服务。当今世界,生动直观、色彩缤纷的多媒体信息深受广大读者尤其是青少年用户的喜爱,如何依托原有的文本数据库开发新型的多媒体专题数据库,已成为图书情报学界关注的热点之一。

《全国报刊索引数据库》是基于拥有54年悠久历史的书本式检索刊物《全国报刊索引》的新一代电子式检索工具。它背靠上海图书馆丰富的馆藏资源,收录了近200多种报纸和包括部分港澳台地区的全国约8500种期刊数据,是全国著名的权威性索引数据库。近年来,它还整合了国内专业会议论文数据和1833年以来的近现代报刊数据。因此,对其进行知识挖掘能够为读者提供更具个性化、专题性的有效服务。虽然,《全国报刊索引》编辑部也陆续出版了一系列专题库,但是这些专题库仍然是由单一的文本数据组成,缺乏吸引普通用户的多媒体感观效果,不太符合当今社会的检索需求。一般而言,数据库的直观性,直接影响到用户的商业选择和使用效果。因此,开发一些图文并茂的专题性多媒体数据库更能提升它的使用率和商业竞争力。本文试图探讨如何充分利用这类大型数据库的信息优势来建立各种专题性多媒体数据库的问题。

1  选题问题

    专题数据库内容的选择是一个重要问题,选题的新颖、独创和时效与否直接关系到建库的成败。选择一些符合地方、学科、民族特色或者是目前最为关注的社会热点作为数据库的主题是比较明智且具有商业价值的。专题库最主要的亮点就是“专”,那些独具特色的主题数据库往往更具有商业竞争力。比如,兰州大学图书馆承建的敦煌学特色数据库、四川大学图书馆承建的巴蜀文化数据库、还有国内一些著名的如“赵盂人物专题数据库”、“大熊猫多媒体信息管理与咨询系统”等等,都因能很好地突出各自的独一无二性而成功达到了吸引读者的目的。

2  信息的收集和筛选问题

多媒体数据库当然需要大量拥有图形、图像、动画、音频和视频等信息形式,不仅如此,这些多媒体数据必须与大量的文本线索或全文数据相对应。当我们确定主题后,我们第一要做的就是利用各种载体(如报纸、期刊、档案、互联网甚至截取广播和影视资料)进行多媒体信息的收集。比如:假设我们要收集反映“红军长征”为主题的多媒体信息,我们可以获取资料的信息源有:报刊杂志和档案馆的照片、电影和电视剧的完整拷贝或片断、一些当事人的访谈录音,还可以利用数码技术拍摄文物照片。这么一来我们通常得到海量数据,我认为建立专题库并不一定要涵盖所有的信息内容,我们筛选一些能够说明专题内容的比较新颖独特的多媒体数据就可以了。比如,我们可以截取一些电视访谈和电视纪录片的音频和视频,还可以扫描一些档案馆公开资料或者利用网络资源搜索一些影视片断,当然还可以通过参观长征系列展览等获取多媒体信息。

接下来就是对相应文献信息的收集。我们可以依托《全国报刊索引数据库》的完整性和权威性进行文献检索,抽取我们所需要的数据,将它们与前期选取的多媒体数据进行关联建设。

3  数据库的建设

目前比较流行的建库方法有两种:扩展原有的关系数据库和建立面向对象的数据库。虽然面向对象数据库是多媒体数据库的发展方向,但目前的技术还不成熟,而扩展关系数据库又存在一些瓶颈技术问题,除此之外,还有一种XML数据库能够对非结构化数据进行有效的存取和管理,但是它的运用还不广泛。

笔者认为,如果要以当前的文本数据库为基础建立多媒体新库,应采用将文件管理系统与关系数据库结合的方法,即扩展原有的关系数据库是比较便捷实用的方法。首先,对原有的关系数据库加以扩充,使之能支持多媒体信息的处理,如选用Oracle 8i软件系统,增加LOB型字段用于多媒体数据等大型对象的存取,再利用关系数据库中的字段对多媒体文件进行诸如名称、入库时间、文件类型、文件说明、更新时间等元数据描述,使文件系统管理的多媒体文件和关系数据库管理的多媒体元数据一一对应起来,即将多媒体文件在文件系统中的存储路径作为多媒体数据的一个属性存贮于关系数据库中,这么一来,在关系数据库的基础上扩展了XML支持模块,实现非结构化数据和数据库之间的格式转换和传输,从而支持了对多媒体数据的相关操作。由于《全国报刊索引数据库》是一种关系数据库,它的检索方法已为用户熟悉,所以采用这种方法操作上比较得心应手。

4  数据的权威性和信息处理的规范性

以上是建设数据库的硬件层,建立数据库的另一个关键技术还在于数据的权威性和信息处理的规范性。我们选取《全国报刊索引数据库》作为专题库的基础就在于它的数据处理是严格按照《中图法》的规则来执行的。数据库拥有一支强大的专业化标引队伍,因此它在国内几大综合性文献数据库中的质量是比较好的,将他们的标引力量和技术用于多媒体库的著录同样可以实现信息处理的规范化和标准化。这样,以《全国报刊索引数据库》为依托建立起来的多媒体专题库就更加具备了数据的权威性和规范性。

要建立具有特色的多媒体专题数据库不仅在主题上要有创新,必须做到“人有我避,人无我有”,而且在多媒体形式上要追求生动直观,最好能收集到一些鲜有的资料,这样的话不仅能够受到普通读者的喜爱,而且能够为该主题的学术研究提供准确、全面、有效的重要参考,挖掘出原有文献数据库的更大的情报价值。

多媒体形式是当今社会普遍接受且颇具视觉吸引力的表达形式,普通读者可以将访问这类专题库作为一种参观展览式的学习方法,而专业用户更可以将其作为学术研究的一种参考工具。目前,国内的数据库很少以多媒体形式出现的,而利用文本数据库开发新的知识平台是图书情报学界更好的进行信息服务的手段,是对多样化信息载体进行资源整合的新方法。

 

参考文献

1 韩丽风,杨毅,林佳.文摘索引数据库增值功能研究.中国图书馆学报,20055):45-49

2 宋靖.浅谈图书馆专题数据库的建设.科技信息,20066

3 黄楠.高校建立多媒体专题数据库的探索与实践.四川图书馆学报,19973 ):11-13

 

庄隽芳  女,本科,馆员,1995年至今担任上海图书馆《全国报刊索引》编辑部社科类责任编辑。