资源发现 知识导航——大数据时代图书馆的数字资源建设与服务(何 毅)
发布时间:2018-09-26  浏览次数:31

资源发现 知识导航

——大数据时代图书馆的数字资源建设与服务

 

  

(上海图书馆  200031

 

    本文在分析当前图书馆数字资源现状的基础上,论述了大数据时代数字资源的内涵:数字资源制作、数字资源组织和管理、数字资源服务。最后提出了大数据时代用户服务创新的对策和方式。

关键词  数字资源建设    图书馆   数据挖掘  用户服务

 

引言

20 世纪90 年代以来图书馆的馆藏资源情况和服务模式发生了巨大变化,图书馆的数字资源建设经过了一段快速发展时期,数字资源在馆藏中所占的比例越来越高,目前已经达到相当的规模,特别是进入21 世纪以来,图书馆数字资源日益成为主要的知识资源载体,以数字资源为基础的复合图书馆已逐渐成为图书馆服务与管理的主要形态。用户也越来越习惯于通过网络使用图书馆的服务,网络信息的流动以更快速、更便捷、更直接以及更实惠的特点成为广大公众更喜欢和更易接受咨询方式,并可实现365 天全年服务的无缝链接和即时响应。

 

数字资源建设的现状

1.1 数字资源的构成

目前图书馆的数字资源主要包括四类:购买资源、自建资源、合作开发资源及网络免费资源等。购买资源主要是指图书馆从数据库商处采购的数据库资源,这些数据库多半是结构化的数据,目前图书馆的购买资源量已经达到海量。仅以CALIS为例,截至2013年,数字资源采购联盟引进数据库已达236[1],这些数据库有些通过镜像站进行本地访问,有些通过远程进行租用服务;自建资源指图书馆通过数字化等手段开发馆藏资源建成的数据库,如各个图书馆的书目数据库、国家图书馆的敦煌遗珍、上海图书馆的家谱数据库、上海年华、全国报刊索引数据库及CALIS的特色数据库项目,这些自建资源在图书馆的数字资源建设中也不可小觑,上海图书馆《全国报刊索引》的民国期刊数据库已经收录1000余万条篇名数据和全文;合作开发资源主要指多个图书馆通过合作共建的模式建成的可以共享使用的资源,如国家图书馆和上海图书馆等单位共同建设的中国近代文献联合目录;网络免费资源不仅指互联网上的开放存取的学术资源,如DOA JOpenJ-GateOpenDOAR等,广义上还应包括网上能提供参考的版结构化及非结构化的数据,如用户使用及反馈数据、图书馆社交网络上产生的数据等。

1.2大数据环境下的数字资源建设

以上四种图书馆数字资源的内容涉及结构化数据、半结构化数据和非结构化数据。结构化数据可以在关系数据库中找到,形成图书馆服务的数据库基础; 半结构化数据包括电子邮件、文字处理文件以及大量发布在网络上的资源等,以内容为基础,这也是诸多图书馆网站存在的形态和存在的理由;而非结构化数据广泛存在于图书馆行业内外的社交网络、物联网及电子商务之中。随着社交网络、移动计算和传感器等新技术不断产生,超过85% 的数据属于非结构化数据[2],形成图书馆数字资源建设和服务的大数据环境。

大数据为图书馆数据库的整合服务以及相应的知识发现和读者咨询工作提出了新的挑战。面对大数据环境,面对越来越多的数字资源,图书馆该如何进行系统升级,如何对数字资源进行有效组织和管理进而提供高效服务?对于海量数字资源,大数据环境下的用户又是如何使用这些数字资源的?本文重点分析大数据环境下数字资源建设的内涵,通过对用户的使用行为进行数据挖掘和分析,从中获得知识和洞见,进而提升图书馆能力和服务品质,希望大数据环境下的图书馆迎来一个充满智慧的数据管理、数据服务和数据创新的时代[3]

大数据时代的数字资源建设内涵

我们认为目前图书馆的数字资源建设应该包括三部分工作内容:数字资源制作、数字资源组织和管理、数字资源服务。这三部分的工作在大数据环境下,也衍生出新的内涵。

2.1 大数据为数字资源制作提供数据筛选

目前一些稍大规模的图书馆或图书馆联盟都不同程度地承担馆藏资源数字化制作及开发工作,这项工作一方面承担着馆藏文献的数字化抢救义务,另一方面也通过数字资源制作为读者和用户提供特色信息服务。

大数据环境下的数字资源制作工作首先面临着选题和数据筛选工作,在数字化发展的早期,由于数字资源较少,开发馆藏特色资源基本上是想到做到,选题的复杂性较小,基本上不需要调研。目前互联网高度普及,人们似乎觉得只要能想到的内容,通过搜索引擎就能找到,像空气和水一样易于获取,但多次的检索实践告诉我们,在满足专业检索需求方面,搜索引擎带给我们的失望会更多。被大数据包围的专业用户需要的是有针对性的专题资源,如何满足他们的需求,图书馆在这方面可以做得更好。《全国报刊索引》开发的《民国时期期刊全文数据库》就是在这个背景下进行的:该数据库收录民国时期(1911-1949)出版的期刊两万余种,文献一千五百余万篇,内容集中反映这一时期政治、军事、外交、经济、教育、思想文化、宗教等各方面内容,方便了广大用户对民国时期历史的学术研究。目前,民国期刊数据库已经在海内外用户中得到较广泛的使用,该数据库对用户来说是海量数据,在数据库使用过程中芝加哥大学的用户产生了新的研究需求,需要通过对整个民国期间出版的文学期刊数据进行某类学科的走向研究,但目前的海量数据库由于知识细分描述不够,不能满足此要求。上海图书馆得知这一需求后迅速组织人员进行网络环境的数据调研和论证,如果满足这项需求,需要在文献中做深层次的数据关联和分析研究,必须对基础数据进行充分描述和揭示。上海图书馆经过对互联网及多个发现系统检索确定,该需求有很重要的专题开发价值,决定精选出具有较高史料价值和学术价值的期刊,从专题角度,进行深层次的资源描述和展示,从分类、作者及语词的角度充分挖掘文献内容的知识关系。目前正在进行开发调研,这个专题数据库的建设对开展东西文化的交流研究有很大的价值,这个实例也充分说明目前的数据资源制作过程中需求的产生及数据源的筛选均需要海量数据进行支撑。

2.2大数据给数字资源的组织和管理带来更高的要求

2.2.1 元数据组织仍然是资源组织的核心

从图书馆数字资源的构成可知,大数据环境中,结构化数据仍然是知识服务的核心,说到结构化数据就回到了图书馆数字资源服务的根本问题,就是元数据的组织,这里谈及的元数据组织涉及两部分内容:元数据的著录过程和元数据的检索服务两部分,这两部分工作是二次文献检索的基础工作,从互联网检索的准确率来看,元数据组织的检索效率最高。

分类法、主题法作为传统知识组织方法,一直也是图书馆学研究的重点,随着数字资源的发展和应用,传统的知识组织方法难以适应网络发展的需要,近年来转向关于分类主题词表的网络化应用、自动分类、自动标引、不同分类体系、词表或元数据的互操作以及叙词表的语义化与本体构建研究等。这些研究的目的希望实现面向用户的数字资源精细、深度和动态组织。

目前有一些数据库元数据的组织单元已经不局限于文献的篇名,如EBSCOASC全文数据库,已经开始对图表、表格等提供检索和单独显示服务[4]。在此背景下元数据的组织粒度变得更加细小。

元数据的组织并不是静态方式存在,同时也动态地存在于每个检索过程中,人们在输入某个检索需求,点击运行后在安静等待检索结果的过程中,数字资源会通过元数据的再组织,以知识聚类等方式呈现给用户,这种元数据的检索后组织服务功能备受关注[5]。《全国报刊索引数据库》正在实施知识组织和服务的方案,希望通过引入语词改善关键词与分类号的对应关系,细化元数据,实现基于语义的知识聚类和导航,进而带给用户更好的使用体验,也属于元数据的检索后组织功能。

2.2.2 数字资源的管理要求更高

图书馆数字资源中的结构化数据一般都会通过诸如SQL数据库等进行组织和管理,这部分数据的利用率也很高,对于我们来说,一般意义上的信息获取目前多半都是指数据库检索,SQL 的优点是简单易用,但其主要用于数据的检索查询对于大数据上的深度分析来讲是不够的。目前,全球将近87. 5%的数据未得到真正利用[6], 85%以上的是非结构化数据和半结构化数据传统知识服务模式仅仅能够提供极小部分数据给用户有效地使用并且能提供的数据处理服务也极其有限就使得半结构化、非结构化数据难以得到充分利用从而无法实现知识的横向扩展以及数据多维度、深层次的智能分析。首先,大数据对于图书馆的数据存储能力和范围、计算能力有着特别高的要求。图书馆自身拥有海量的数据,其存储和运算能力受限,与大数据对存储能力的高要求存在一定的差距。其次,图书馆数据量的迅速增加对支持非结构化数据存储及分析的硬件基础设施提出了更高要求。

大数据环境下的数据资源管理和云计算密不可分,云计算是大数据的基础平台与支撑技术,大数据分析常和云计算联系在一起,大数据最佳存储方式是关系型数据库与云存储方式的有机结合[7]。对于非结构化数据目前采用较多的是Google公司提出的MapReduce模型,主要是面向非结构化大数据分析和处理的并行计算模型,实现基于网络的数据处理。国内图书馆数字资源管理和服务也已经在关注云计算、关注一些新的数据管理模式。上海图书馆于2012年启动了“云中上图”计划,让到馆读者更通畅地使用馆藏文献信息资源,更方便地获得馆所图情服务,并探索上述资源与服务在广域网范围的合理延伸。

2.3 大数据给数字资源服务带来更多发现

图书馆数字资源通过各个数据库的服务系统进行检索,没有形成一个统一的馆藏资源检索和服务体系,给用户带来极大的不便,也影响资源的使用效率。近年来,国内越来越多的图书馆采用资源发现系统进行数字资源的一站式发现和获取服务。资源发现的内容并不仅限于文献数字资源,可以包括音视频内容,同时通过深层次的内容索引可以让检索点更加丰富,使得相关度的准确性更高,有的还提供移动和可视化服务功能。

目前的资源发现系统采用云计算向用户提供服务,不仅可以扩大资源发现的范围,还有助于发现图书馆自身没有购买的资源,使得可发现资源的元数据可达十亿条之多,远远多于实体馆藏的内容。目前,国内购买较多的发现系统有:PrimoEDS、和Summon,其中EDSSummon 完全基于云计算来提供服务,而Primo 则允许用户在馆舍内搭建SOA 架构的服务系统,同时也支持以云计算方式向图书馆用户提供服务。

《全国报刊索引》的二次文献共建共享平台,开发整合《全国报刊索引》的现刊篇名、解放前报刊数据、现刊目次数据、会议预告信息、会议论文、视频音频及图像数据资源、外部合作单位资源等,海量数据的平台一方面给资源检索和服务带来极大的方便,海量数据的检索结果聚类功能及可视化显示功能在用户中使用效果非常好,另一方面给解放前报刊数据的共建共享提供了途径,加快二次文献中心和近代中文报刊资源中心,为用户提供更加便捷的知识发现服务。

大数据时代的用户服务创新与发展

最早将大数据服务引入图书馆并着手实施的是Harvard[8]。这一引进使我们看到在关注每一个具体图书馆的结构化信息资源需求的同时非结构化数据分析变得可行和经济高效能够实现知识横向扩展以满足急剧扩张的知识服务需求。

3.1 基于元数据仓储,开展学科知识服务

图书馆所拥有的数字资源,构成了高质量的庞大学术资源元数据仓储,大数据环境下,文献计量学或网络计量学的一些统计和评价方法可以延伸,进行学术评价及知识关联服务。

近年来有条件的研究型图书馆利用馆藏数字资源及发现系统开展了一系列的知识服务,如清华大学图书馆利用发现系统平台汇集融合了从维基百科下载的开放数据,以及由图书馆员收集整理的清华教工的学术简介、豆瓣书评、清华学生的打分标签等。进行数据集成和数据挖掘: 

  (1)尝试对这些数据集合做一些分析工作,即从元数据仓储中提取关键词等信息,分析关键词走向,分析作者与合作者的关系,建立以人为中心的知识关联网络。

  (2)基于时间轴进行趋势分析。研究某学科领域在一个时间段的发展趋势对了解该学科的发展脉络、预测未来的发展方向至关重要。。

3.2 基于用户数据挖掘和分析,开发服务新模式

     Google通过保存用户的大量的搜索请求(Google每月收到的搜索请求大概有300亿次)及相关的搜索结果,能够将这些数据与人口统计资料联系起来。这些都是通过大数据的挖掘和分析实现的[9]

我们在使用数字资源时,系统可以记录你每次输入的检索请求、你的点击结果、你的IP地址等,这些记录下来的用户使用数据积累到一定量,通过分析能发现用户的使用规律,进而有针对性地开发新的服务模式。比如,上海图书馆2012年根据图书馆自动化系统记录当年用户的图书借阅数据,分析了2012年图书馆借阅的构成情况、借阅人员的年龄分布、最勤奋的读者等等,同时给每一位读者发去一份当年通过图书馆借阅图书形成的电子阅读账单,图文并茂的阅读账单通过记录阅读足迹传递给读者一缕书香[10]。挖掘的这些数据及对应的分析结果对上海图书馆创新服务有很直接的指导价值,对市民数字化阅读计划的落实可以提供依据。

3.3 基于大数据进行决策,实现智慧型的知识服务

近年来,数字资源使用统计深受图书馆重视,图书馆可以定期获取本地数据库及远程数据库商提供的符合国际标准的数据库使用统计报告,这些报告记录下了某段时间内用户检索及下载的情况,通过对统计报告进行大数据分析,为图书馆的馆藏政策制定提供了重要依据。但这些统计分析还有一定的局限,无法获知用户在数据库检索以外的活动行为,对知识服务的预知能力受到限制。

大数据带来的最大优势是根据实时大数据进行决策,充分利用大数据处理和分析能力的优势对用户在社区网络中的足迹、点击历史、浏览历史、信息反馈,直接真实的展示用户的性格、偏好、意愿等相关数据进行分析之后,帮助图书馆感知知识服务的市场,用户的需求和能力、未来的发展形势等,以便图书馆对价值评估、服务能力和服务水平等做出更科学的预判,可以做到目标用户服务细分、精准服务等。

 

结语

大数据不仅仅是数据量的剧增也不仅仅是信息技术的飞跃而可能是人类对客观世界认知飞跃的前奏[11]。大数据带给图书馆的思考和学习的内容很多,我们的思维模式转过来了吗?我们的数据素养和数据意识如何培养?我们服务创新的路是否借助大数据可以走得更轻松呢?这些都值得我们继续关注。

 

 

参考文献

1 http://www.libconsortia.edu.cn/Ency/indexEncy.action. [2013-10-16].

再论智慧图书馆,图书馆杂志,20123111):2-8.

陶雪娇,胡晓峰,刘洋.大数据研究综述, 系统仿真学报,2013,25s):142-146.

4 http://search.ebscohost.com/.[2013-10-16].

索传军网络信息资源组织研究的新视角,图书情报工作,2013,57(7):6-12

郭自宽张兴旺麦范金大数据生态系统在图书馆中的应用,情报资料工作,20132):23-28.

[ 3 ]

8 The New York Times.Harvard release big data for books[EB].[2012-08-11].

http://bits.blogs.nytimes.com/2012/04/24harvard-release-big-data-for-books/

维克多·麦尔-舍恩伯格删除浙江:浙江人民出版社,2013,

10 2012上海市中心图书馆市民阅读报告上海 ,2013.