大数据时代索引与数据库事业的发展与创新
――大数据时代图书馆的数字资源建设与服务
邱均平 马 力
(武汉大学信息管理学院 430072)
摘 要 阐述了大数据的定义与特征,指出大数据时代数据的发展特征及其对索引和数据库事业的影响,回顾了索引和数据库事业的发展现状,分析了大数据时代索引与数据库事业面临的挑战,指出索引和数据库事业的创新方向。
关键词 索引 数据库 发展 创新
1 引言
“大数据”( big data)或者称为“海量数据”,这个直白的名词,已经在全球引起了广泛关注,已经引领了又一轮数据技术的革命。
美国EMC 公司于2011 年5 月在美国拉斯维加斯举办第11 届 EMC World 大会,大会的核心是帮助企业利用IT变革的重要趋势。此次大会以“云计算相遇大数据(Cloud
Meets Big Data)”为主题,着重展现当今两个最重要的技术趋势,正式抛出了“大数据”概念。
根据IDC《数字世界》研究项目在2012年的统计,2010年全球数字资源的规模首次突破了ZB(1ZB=1万亿GB)级别,达到了1.227ZB;而2005年只有130EB,五年增长了10倍。如果保持这种爆炸式的增长速度,到了2020年,我们的数字资源规模将超过40ZB,相当于世界上每个人拥有超过5200GB的数据。无疑,我们已进入了大数据时代。
在 2011年11月,我国工信部发布了物联网“十二五”规划,提出了4项关键技术创新工程。信息处理技术的内容包括海量数据存储、数据挖掘、图像视频智能分析等,都是大数据技术的重要组成部分;另外 3 项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,这些也都与“大数据”密切相关。我国也对大数据技术给与了足够的重视。
基于以上概述,大数据时代已经到来,已经对我们的社会产生了重大影响,本文将尝试对大数据时代我国的索引和数据库事业的发展与创新进行研究和展望。
2 大数据时代
2.1 大数据的定义和特征
许多权威机构和企业对大数据给予了不同的定义。麦肯锡认为,“大数据所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。”IBM公司认为,可以用3个特征相结合来定义大数据:数量(Volume)、种类(Variety)和速度(Velocity),即庞大容量、极快速度和种类丰富的数据。IDC认为,“大数据不是一个事物,而是一个跨多个信息技术领域的活动。大数据技术描述了新一代的技术和架构,其被设计用于通过使用高速(Velocity)的采集、发现或分析,从超大容量(Volume)的多样(Variety)数据中经济地提取价值(Value)。”
综合各种不同的见解,本文认为,具备以下特征的就是大数据。
(1)数量大(Volume)。大数据所包含的数据量很大,而且在急剧增长之中。但是,可供使用的数据量在不断增长的同时,可处理、理解和分析的数据比例却不断下降。
(2)种类多(Variety)。随着技术的发展,数据源不断增多,数据的类型也不断增加。不仅包含传统的关系型数据,还包含来自网页、互联网、搜索引擎、论坛、电子邮件、传感器数据等原始的、半结构化和非结构化数据。
(3)速度快(Velocity)。除了收集数据的数量和种类发生变化,生成和需要处理数据的速度也在变化。数据流动的速度在加快,要有效的处理大数据,需要在数据变化的过程中实时地对其进行分析,而不是滞后的进行处理。
(4)价值量( Value)。在信息时代,信息具有很重要的商业价值。但是,信息具有生命周期,数据的价值会随时间快速减少。另外,大数据数量庞大,种类繁多,变化也快,数据的价值密度很低,如何从中尽快的分析得出有价值的数据非常重要。对海量的数据进行挖掘分析,这也是大数据分析的难点。
(5)真实性(Veracity)。这是一个衍生特征。真实有效的数据才具有意义。随着新数据源的增加,信息量的爆炸式增长,我们很难对数据的真实性和安全性进行控制,因此需要对大数据进行有效的信息治理。
大数据在结构类型上也有其特点:大多数的大数据都是半结构化或非结构化的。半结构化的数据是指具有一定的结构性并可被解析或者通过使用工具可以使之格式化的数据,如包含不一致的数据格式的员工薪酬数据。非结构化的数据是指没有固定结构,通常无法直接知道其内容,保存为不同类型文件的数据,如各种图像、视频文件。根据目前大数据的发展状况,未来数据增长的绝大部分将是半结构化或非结构化的数据。
2.2 大数据时代的到来
(1)大数据时代的到来
理论的提出:2008年,《Nature》杂志出版一期专刊专门讨论未来的大数据(Big Data)处理相关的一系列技术问题和挑战。
现实的节点:2007 人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。
(2)大数据时代到来的原因
首先,信息技术和计算机网络技术的发展,为大数据时代的到来奠定了坚实的技术基础。各种技术的发展,使得数据的产生、来源、类型变得越来越多,由此产生出了数目庞大且不断急剧增长的非结构化数据、半结构化数据,整个社会发展进入到了大数据时代。
其次,大量智能终端的广泛应用与网络应用的不断增长,为大数据时代的到来奠定了坚实的物质基础。通过互联网和社交网络,数码相机等工具,每个人的日常生活正在被数字化,人们可以随时方便地根据自己的需要,产生大量的非结构化数据、半结构化数据。特别是智能手机和笔记本电脑的普及,是当前数据量爆炸增长的一个重要原因。
最后,信息社会的快速建立,信息成为越来越重要的经济资源,也是大数据时代到来的重要原因。在信息时代,数据已经成为社会资源的重要部分,基于数据的处理、分析、挖掘等服务都被信息服务机构广泛应用和开展,信息的经济价值越来越大,对数据的重视程度越来越高,由此也产生了大量的数据。
(3)大数据时代的到来,必定会对索引和数据库事业也产生重大影响,本文将论述大数据为索引和数据库带来的机遇和挑战,探讨大数据时代索引和数据库事业的发展与创新,以引起业界学者对相关问题的关注与探讨。
3 索引与数据库的发展现状
3.1 索引事业的发展现状
按照钱亚新教授的说法,“将一种书报或一套书报中讨论所及的人名、物名、事名、地名、时名或篇名等分析而组合,用一定的方法排列它们的次序,并表明它们在书报中所在的地位的表,叫作索引。换言之,索引是一种检查指定范围内的书报所有特项知识的工具。”
一般来说,索引的编制有手工和计算机编制两种方式,随着科技和时代的发展,目前基本都使用计算机编制索引的方式。九十年代以来,随着当代数字化、网络化、智能化技术的发展,索引研究对象也随之从传统的印刷型扩大到了数字型,出现了索引数据库、文摘数据库、全文数据库,以及网页索引、网址索引、搜索引擎、学科导航等各种新兴工具,检索语言、标引方法和索引技术等领域都有了新的突破。目前使用最多的索引产品是数据库索引,南京政治学院上海分院信息管理系的张琪玉教授直接提出了现代的索引就是数据库的判断。
目前国内外的索引事业随着计算机和网络技术的发展也取得了很大的发展。在国际上,三大检索在科技界形成了重大影响,其他领域的索引应用也取得了广泛的成果。在国内,各种类型的中文全文文献数据库纷纷上网,为科研工作者提供了很好的帮助,传统索引事业也稳步发展。网络信息检索工具是国内外索引研究和应用的热点,影响正越来越大。
根据本中心的研究,目前国内外在索引领域的研究表现出明显的差异性,但发展趋势基本趋于一致。具体表现在以下四个方面:第一,国内外对电子索引技术的研究日益成熟,在国内正处于研究网络的中心,而在国外已逐渐处于网络边缘。这与国内信息技术研究比国外起步稍晚的原因是分不开的。第二,传统的索引理论的研究仍然占据重要地位。国内外学者对传统索引理论的研究仍然非常重视。相对而言,国外学者的理论研究更具全面性和系统性。第三,索引的应用研究将成为索引研究中的重要内容,国外的应用研究相对国内更为广泛。国外对索引的实践与应用的研究则深入到了引文分析、文献计量学、科学计量学、评价、绩效评估、医学等多个具体领域。第四,与其他学科相结合开展研究可能成为未来索引研究的发展趋势之一。在索引研究的过程中注重与其他学科的结合,一方面可以引入新的理论与方法,如社会学、本体、知识地图、元数据等,为索引理论和方法的研究带来新的视角;另一方面,索引的方法与研究成果也可以应用于其他学科,为促进其他学科研究的发展做出贡献。
此外,自从改革开放到现在,我国的索引从业人员一直在稳步增加,这一方面与国家重视图书馆的建设有关,另一方面也是索引事业发展的需要。但是我们相比国外,索引事业的从业人员仍然人数偏少,素质较差。特别是在索引专业的教育方面,我们取得的成绩还不够,比如我们至今没有一本公认的比较权威的索引学教材。
3.2 数据库事业的发展现状
数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。相对于索引事业,数据库事业的发展更为迅猛。目前,全世界大约有图书书目型数据库、参考型数据库、参考文献数据库、全文型数据库等几十种不同类型的数据库。各种数据库的具体数量更是难以估计。
1980年以前,数据库技术的发展,主要体现在数据库的模型设计上。进入90年代后,计算机领域中其他新兴技术的发展对数据库技术产生了重大影响。数据库技术与网络通信技术、人工智能技术、多媒体技术等相互渗透,相互结合,使数据库技术的新内容层出不穷。数据库的许多概念、应用领域,甚至某些原理都有了重大的发展和变化,形成了数据库领域众多的研究分支和课题,产生了一系列新型数据库。如:分布式数据库、联合数据库、大规模并行处理数据库等。
国外数据库的发展大致经历了四个阶段:1970年以前为初步发展阶段;1970-1980年数据库数量迅速增加,开始进入联机检索阶段;1980年至2010年数据库数量剧增,类型也发生了巨大变化,而且开始全球化,是数据库的深入发展阶段,2010年至今,数据的质和量均发生了重大变化,数据库也必须随之发生改变,于是进入了变革发展阶段。我国数据库的研究和应用相对国外来说,起步较晚,也可以大致参照国外的发展状况划分为四个时期:介绍学习时期(70-80年代)、初步发展时期(80-90年代)、稳定发展时期(1990-2010年)、变革发展时期(2010年至今)。在此期间,国内外的数据库技术发展非常迅猛。
分析我国数据库建设现状,目前仍处于一个低级的发展阶段。虽然已经建立了种类众多的数据库,全国各高校的计算机和信息管理专业都开设了数据库课程,商业数据库的建设和使用越来越广泛;但是,政府缺乏统一的整体规划,全国各地的信息机构对数据库的建设不够重视,数据库的技术发展仍滞后于国外,商业数据库的建设和应用不够广泛,数据库技术人员的素质还待提高等制约因素仍然普遍存在。而在国外,从六十年代末期开始,数据库系统的研究和开发已经走过了四十多年的历程,取得了辉煌的成就,形成了庞大的产业。数据库技术和系统已经成为世界各国信息基础设施的核心技术和重要基础。在大数据时代,当我国还在研究大数据的概念时,英国的维克托・迈尔・舍恩伯格早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究,已写出了《大数据时代》这本对大数据系统研究的先河之作,并被誉为“大数据商业应用第一人”。
4 大数据时代索引与数据库事业面临的挑战及创新
4.1 面临的挑战
大数据对于索引和数据库事业而言,既是巨大的机遇,又是巨大的挑战。面对海量的种类繁多的半结构化和非结构化数据,从中迅速地进行分析,找出有效的价值,这一方面具有重大的经济价值,另一方面也要求我们必须改进现有的技术,使用新方法来从数据中提取价值。
在大数据时代,对索引和数据库事业的创新提出了如下的重大挑战:
(1)理念更新。大数据带来的是一种全新的模式,索引和数据库的观念也要跟随变化,以适应时代的需要。同时要更加注重商业思维,充分利用大数据,获取经济价值。
(2)及时有效。大数据时代的数据产生迅速,数据的价值生命周期却很短暂,只有能够及时有效地从数据中发现商机并付诸行动,才能获取价值。
(3)集成分析。如果将分析集成到与数据所面临的环境中,将加快信息分析的速度,使分析结果能够更快地实现可操作化。
(4)可扩展。面对大数据必须采取新方法来处理数据,要实现从规模较小的数据集到大规模数据集的分析,因为我们不能控制所面临的数据源产生数据的规模。
4.2 技术的创新
目前,大数据时代的索引和数据库事业已经创造出了很多重要的基础性的新技术,如下:
(1)云计算(cloudcomputing)。
云计算是在分布式处理、并行处理和网格计算等技术的基础上发展起来的,是一种新兴的共享基础架构的方法。它可以自我维护和管理庞大的虚拟计算资源(包括计算服务器、存储服务器、宽带资源等等),为我们提供了跨地域、高可靠、按需付费、快速部署的能力。甚至可以说,云数据库是数据库技术的未来发展方向。
云数据库具有以下特性:动态可扩展,理论上,云数据库具有无限可扩展性;高可用性,不存在单点失效问题;较低使用代价,可以实现按需付费;可以大规模并行处理。
云计算和大数据之间关联非常紧密,大数据为云计算提供了应用空间,云计算为大数据提供了处理工具。
(2)虚拟化(virtualization)。
虚拟化技术是云计算所有要素中最重要的部分,主要包括计算虚拟化、存储虚拟化和网络虚拟化。
利用虚拟化技术可以在一台主机上运行多台虚拟计算机,允许很多用户共享一台高性能设备的使用,可以极大的节约成本,也为云计算的实现奠定了技术基础。
(3)数据存储。
大数据的特征,需要新的数据存储技术和数据存储工具来满足。
目前已经出现了一些新型的大数据存储系统,具有以下特点:大容量、高可靠性、高可用性、高性能、高安全、高度自治、高成本、访问接口的多样化。因此,具有优秀可扩展能力的分布式存储成为大数据存储的主流架构方式。
大数据存储还需解决一些问题:如何对数据进行去重;如何更好地实现分层存储;如何解决数据的安全性问题等。
(4)数据分析。
大数据时代的数据分析需要满足及时有效的要求,既要能处理高速的数据,又要能够实现实时的分析。目前产生了一些新型的在线事务处理系统,如NoSQL方案和NewSQL方案。NoSQL方案通过消除SQL的语言查询来实现性能的提高和扩展性的增加。有以下特征:不需要预定的模式;没有共享架构;具有弹性可扩展性;可对数据进行分区处理;能够异步复制等。常用的产品有HBase、MongoDB等。NewSQL方案是既能保留SQL查询的方便性,又能提供高性能和高扩展性的新型数据分析工具,是一种新型的关系数据库管理系统。常见的系统有Google Spanner、Clustrix、VoltDB等。
对大数据进行处理,目前有两大主流的方向:一个是以MPP数据库(大规模并行数据库)为首的并列关系数据库方向,一个是以MapReduce为首的分布式NoSQL方向。除此之外,流数据管理也是大数据处理分析的一种解决方案。
为了成功地实现对大数据的分析,还要建立具有敏捷的计算平台,线性扩展能力,全方位、协作性用户体验的大数据分析平台,还需要聚类分析等高级的分析理论和方法以及方便易用的数据可视化技术。
(5)信息索引技术。
当前硬、软件环境越来越好,从而为索引技术向智能化、多语种化、索引手段的自动化提供了物质条件,使搜索引擎向高层次发展成为可能。目前在搜索引擎智能化、用户接口的多语种化、索引手段的自动化等方面已取得了一定的成果。
4.3 事业的发展与创新
索引和数据库事业的发展和创新,既离不开技术的发展,又需要理念的转变,方式的创新和人才的培养。技术的创新,需要进一步满足对大容量、种类多、变化快的数据进行及时有效分析的要求。进一步拓展对NoSQL方案和NewSQL方案的研究,以取得更好的应用效果。同时在大数据存储、管理、分析的方面需要革命性的理论和新算法的出现,需要新的兼备大规模并行处理数据库的高效率同时又具有Hadoop平台的高扩展性特点的系统的出现。
理念的转变,主要是对索引和数据库的理论进行更新、对服务提供方式进行创新,以实现商业价值。不能只满足于传统的理论,要对已有的理论进行创新,需要对大数据中蕴含的价值进行深入的挖掘,积极主动地提供给需要数据的对象,积极主动地去创造商机。
方式的创新,是指如何满足人们的小型化、便捷性的需要,如何实现商机的主动获取和推介。随着智能设备的普及,人们使用的移动终端越来越小型化、便捷化,索引和数据库的服务提供要重视这些终端,要开放接口,使用云技术,极大地改进移动终端上的用户体验。
人才的培养,一方面是加强对传统的索引和数据库专业的人才的教育和培养,更重要的是适应大数据的要求,重视对数据科学和数据研究人员的教育和培养。数据研究人员应该是具有良好视野的复合型人才,既有坚实的技术基础,又有广泛的业务知识和经验,从而能够熟练地使用各种大数据工具,分析并制定出各种策略和计划。
政府相关部门也要从整体规划、配套建设、权益保护等方面出发,支持索引和数据库事业的发展和创新。各高校和科研院所也应该对此加大投入的力度,探索有益的成果。
参考文献
1 邱均平,楼雯.我国索引研究二十年回顾与展望――纪念中国索引学会成立20周年[A]. 2011年中国索引学会年会暨成立二十周年庆典论文集[C]. 2011.
2 张琪玉.张琪玉索引学文集[M].北京:国家图书馆出版社,2009.
3 栾春娟,侯海燕,王贤文.国际科技政策研究热点与前沿的可视化分析[J].科学学研究,2009,27(2).
4 邱均平,楼雯.基于内容分析法的索引研究论文主题分析[J]. 图书馆工作与研究, 2012(10).
5 邱均平,楼雯.近二十年索引学发展演进与研究热点探析[J]. 图书馆杂志, 2012(12).
6 邱均平,楼雯.近二十年来我国索引研究论文的作者分析[J]. 情报科学, 2013(3).
7 李跃明.数据库系统的创新发展[J].电脑知识与技术,2011(2):269-270,273.
8 张桂玲,阎敏.数据库及其检索技术的发展趋势[J].现代情报,2006(2):14-15.
9 肖沪卫.日本数据库发展动向及其借鉴研究[J].情报理论与实践,2006(5):632-637.
10 姚武霞.数据库产业化的现状与发展[J].现代情报,2007(5):5-6.
11 陈黎.我国数据库的发展现状与趋势[J].现代情报,2006(11):138-140.
12 宋淑玲,丁蕊.数据库技术的发展与主流技术[J].黑龙江科技信息,2009(1):71.
13 黄贤立.NoSQL非关系型数据库的发展及应用初探[J].福建电脑,2010(7):30,45.
14 郭丽莉.浅论网络数据库技术的发展[J].民营科技,2012(2):57.
15 王甫.嵌入式移动数据库技术在企业发展中的应用[J].企业研究,2012(6):118-119.
16 朱兵,吕淑萍.从Scopus看文摘和索引数据库的发展态势[J].农业图书情报学刊,2005(10):86-88.
17 董春晓.国内外数据库业发展方向比较与研究[J].现代情报,1999(4):12-14.
18 诸峰,张再跃.数据库技术在现代应用中的发展[J].世界科技研究与发展,2002(2):65-68.
19 李红育,李绍伟.探讨数据库的历史及发展趋势[J].办公自动化,2010(14):6-7.
20 胡子鸣.数据库在企业中的发展现状和前景分析[J].硅谷,2013(5):68,48.
21 黄欣.数据库在企业中的发展现状及前景分析[J].信息与电脑(理论版),2012(7):125-126.
22 金江军.国产数据库软件产业发展对策研究[J].经济研究导刊,2013(15):223,271.
邱均平 教授,博导,武汉大学中国科学评价研究中心主任,中国索引学会副理事长。
马 力 武汉大学信息管理学院博士。