大数据时代索引员的使命 朱晓霄
发布时间:2018-09-25  浏览次数:7

大数据时代索引员的使命

 

朱晓霄

(上海金融学院图书馆  201209)

 

    本文阐述了大数据时代的索引工作现状,揭示了大数据时代索引员在应对数字类型的扩展、数据库技术的发展、个性化知识需求等诸多方面面临的挑战,提出了为顺应大数据时代索引技术的发展,着力提高索引员的“三种能力”是时代赋予的重大历史使命,即索引员应加强编纂能力、沟通能力和分析能力的素质培养,以期更好地为索引用户服务。

关键词  大数据  索引  索引  数据库

 

在经济全球化和Web.2.0云计算掀起的信息化浪潮助推下,社会化媒体、移动互联等新技术蓬勃发展,麦肯锡咨询公司宣告了大数据时代的到来。置身于澎湃汹涌数据流之中,大数据时代的用户获取信息的渠道和范围无限宽广,用户追求个性化服务已成必然。注重收集数据、使用数据、开放数据,以“数据驱动”为决策方法,把数据视为“科学的度量,知识的来源”,大数据时代改变了人们的工作和生活的方式,大数据时代的中国应思考如何摘掉“差不多先生”的文化标签,彻底改变漠视数据、拒绝精准等陋习1。大数据时代“索引员是什么?”“索引员干什么?”“索引员怎么干?”本文以提高索引员的“三种能力”为有效路径,来阐述索引员如何应对大数据时代的各种挑战,从而完成大数据时代赋予索引员的重大责任和光荣使命。

 

1  大数据时代索引工作现状

1.1  大数据的基本内涵与特征

大数据( Big data)是指所涉及资料量的规模,巨大到无法透过目前主流软件工具, 在合理时间内达到撷取、管理、处理, 并整理成为帮助企业经营决策更积极目的的资讯2。大数据与“海量数据”不是同一概念,前者包含“海量数据”,并具有时间维度或速度维度,其应用步骤可分为捕获、组织、分析和决策四个阶段。大数据技术主要应用模式有,一是Hadoop,是一个分布式系统基础架构, 实现了一个分布式文件系统(Hadoop Distributed File System) , 简称HDFS。二是NoSQL(Not OnlySQL) , 指的是反SQL 运动,一种与关系型数据库运行模式截然不同的数据库管理系统, 亦称非关系型数据库。三是MPP(Massively Parallel Processing), 指的是大规模并行处理系统,由许多松耦合处理单元组成, 每个单元内的CPU 都有特色资源。大数据技术主要涵盖的领域:有可视化分析、大规模并行处理(MPP)数据库、数据挖掘算法、分布式文件系统、分布式数据库、云计算平台、互联网和扩展的存储系统。大数据具有数据量大(Volume)、数据种类多(Variety)价值(Value)密度低、处理速度快(Velocity)4V特征3。大数据的主要来源有,RFID射频数据、传感器数据、社交网络互交数据、移动互联数据等4。在信息化条件下,准确把握大数据的基本内涵与特征,对索引员的编纂工作具有积极意义。

1.2  大数据中的索引技术

索引是大数据时代搜索引擎的核心,建立索引的过程是将元数据(meta-data)处理成索引文件的过程。索引检索时间是索引技术性能最主要指标,经典的索引技术有B+tree索引、哈希索引、R-tree索引等。其中B +tree是众所周知的高效索引技术。最常用的索引结构是倒排索引。在索引构建过程中,索引信息由内存索引和磁盘索引两部分组成。目前,索引技术研究领域有以下一些热点:一是基于固态硬盘的在线全文索引管理策略正在研究中。全文检索是指以文本为检索对象,允许用户以自然语言根据资料内容而不仅是外在特征来实现信息检索的技术。进行全文检索必须构建全文索引,全文索引管理技术分为离线管理和在线管理两类5。二是基于邻接字符对ACP的三元后缀树3DST的全文索引模型,对非结构化海量数据进行组织和快查。主流的全文索引模型有倒排表、署名文件、后缀树、后缀数组6。三是针对图像高维特征的索引技术,如语义哈希索引用于解决海量数据的快速搜索7。四是基于R-tree的索引结构,提出的DR-tree索引思想,是通过对移动对象的位置、时间和对象本身三个维度进行索引,提供了基于时空和对象的高效查询8。五是针对高频元数据属性和低频元数据属性的不同特性,使用KD-tree建立高频元数据属性集的索引,满足高效和多属性组合查询的要求基于属性分频元数据索引算法具有时间空间开销小、性能稳定等特性。六是针对闪存数据库的高更新性能索引结构HF-Tree,有效克服了闪存和基于磁盘索引之间的不匹配问题9Web2.O时代,从图像中可提取视觉特征之外的更多复杂属性,数据呈现“跨媒体”10特性,如何对以“跨媒体”形式表达的图像数据进行索引,将是索引员面临的新课题。

1.3  大数据中的索引员素质

十九世纪初叶,王国维先生在翻译《世界图书馆小史》中,首次将“Index”翻译成了“索引”11在中国索引史上意义重大。索引(Index)是对某种文献或某一文献集合中所包含的各篇文章,或所讨论的各个局部主题,或所涉及的各种事项(如地区、人物、机构、事件、生物、矿物、产品、设备、公式、数据、著作等)以简明的方式分别著录标引,即确定其检索标识和指出其所在位置,并将款目按一定的可检顺序排列和组织,以方便检索的一种工具12。参照张琪玉的索引定义,索引员(Indexers)是指以简明的方式对某种文献或某一文献集合中所包含的各篇文章,或所讨论的各个局部主题,或所涉及的各种事项(如地区、人物、机构、事件、生物、矿物、产品、设备、公式、数据、著作等)分别著录标引的工作人员,即确定其检索标识和指出其所在位置,并将款目按一定的可检顺序排列和组织的索引工作者。《GB/T 22466 2008 〈索引编制规则(总则)〉应用指南》对索引员的素质提出了应具备相关学科的专业知识、索引工作的理论与实践基础、处理与索引工作的相关事宜能力、认真踏实的工作作风等具体要求13。针对索引员的资质认证,张琪玉学者这样阐述:“索引员专业培训的内容, 是依据资格认证的标准确定的,包括索引学基础知识, 重点为索引的结构与功能原理、索引排序、索引设计; 文献篇目索引的编制, 重点为文献著录、分类、主题标引; 图书内容索引的编制, 重点为图书可索引内容的提取, 索引标目措辞; 索引的计算机编制和文献数据库, 重点为数据库的建立;编制索引的实践等。”14索引的国际标准明确指出:“提高标引人员的业务素质是保证标引质量的前提,标引人员须熟悉所用词表及标引规则与方法;具有所标引文献的学科专业知识;具有工作所需的一定程度的语文(本国语文、外文)水平;尽可能与用户多接触,并通过分析检索结果来检验标引工作质量”15。从现实情况看,索引员的素质高低和工作成效,最终体现于用户对所编纂索引的利用率和简易程度上。因此,索引员的工作非常重要,只有让索引员真正明确所肩负的光荣使命,才能在大数据时代发挥应有的作用。

 

2  大数据时代索引员面临的挑战

2.1  数据类型的扩展对索引员的挑战

大数据时代的索引工作依托语义技术向数据索引16领域延伸,赋予了索引学学科以新的活力。各种信息资料从纸质载体上的文字符号扩展为大数据,数据类型也不断扩展,分为结构化数据、半结构化数据和非结构化数据,非结构化数据又称为全文数据。结构化数据是指具有固定格式或有限长度的数据,如数据库(Database)、元数据等,由结构化数据构成的关系型数据库已日臻成熟。非结构化数据是指不定长或无固定格式的数据,如邮件,word文档等。半结构化数据是一种允许用户对自己的标记语言进行定义的源语言,如可扩展标记语言(XML),用于标记电子文件使其具有结构性的标记语言,用以标记数据、定义数据类型,XML是标准通用标记语言(SGML) 的子集,适合 Web 传输;又如超文本标记语言HTML,用于描述网页文档的一种标记语言,包含图片、音视频和URL链接。数字索引编纂工作已经转战到了非结构化数据的广阔天地,一些新型载体更是让数字索引大显身手,如平板电脑、智能手机、社会性网络服务SNS 网站等17。如何应对大数据时代的海量非结构化数据的飞速递增,对索引员将是严峻的挑战。

2.2  数据库技术发展对索引员的挑战

从目录、索引到数据库,数据库技术的突飞猛进助推了索引工作紧跟大数据时代的步伐。“现代的索引就是数据库,现代的索引工作者就是数据库建造者。”18数据库技术的核心和基础是数据模型,由于数据模型的演变,数据库主要经历了第一代的网状和层次数据库系统,第二代的关系数据库系统,第三代的以面向对象数据模型为主要特征的数据库系统19。上述数据库与大数据时代用户的需求已貌合神离、渐行渐远,许多数据库供应商已经转向服务器访问模式,试图借助云端服务器给专业数据库实现大数据的梦想。索引编纂工作已从纸质文献移植到了云端技术之中,这就迫使索引员不仅是一个词汇专家,更应该成为名副其实的IT专家。同时,要求索引员了解数据库管理系统的各种功能,学会直接使用数据库语言访问数据库,甚至能够基于数据库管理系统的应用程序编程接口API编写程序等等。数据库技术与网络通信技术、人工智能技术、面向对象程序设计技术、并行计算技术等相互渗透和有机结合,已成为当代数据库技术发展的重要特征。因此,索引员还应了解一系列新型数据库系统,如分布数据库系统、面向对象数据库系统、演绎数据系统、知识库系统、多媒体数据库系统等20。可见,随着多媒体技术和可视化技术的引入,多媒体数据库建设将挑战索引员的数据库技术能力。

2.3  个性化知识需求对索引员的挑战

索引员来说,具备相关学科的专业知识、索引理论与实践基础固然重要,但随着用户对个性化、专业化信息服务的需求的提高,具备“处理与索引工作相关事宜的能力”21就显得十分重要了。2012 , 非结构化数据占有比例将达到互联网整个数据量的75% 以上, 这意味着个性化数据时代的到来, 异质性、个性化, 才是数据的真正本质22。尤其是知识服务环境中的索引员,要对个性化索引编纂工作明确定位,只有这样,才能有的放矢地提高索引员自身的素养。从美国科罗拉多洲图书馆员Nancy Bolt馆员角色转换理论得到的启示,我们不妨把索引员的角色转换为:知识索引提供者、知识索引中介、知识索引教员、知识索引组织者、知识索引创建者、知识索引交流者等23。随着用户需求趋于全方位、多层次、无间断的知识咨询服务环境,数字挖掘(KnowledgeDiscovery in Database,简称KDD,又称知识发现)技术日臻成熟。数据挖掘又称数据库中的知识发现,是指从大量数据中提取出可信的、新颖的、有效的、易于研究者吸收利用的知识的高级处理过程24。专题索引是基于知识服务的嵌入式个性化推送服务,索引员要对各种专业数据库和文献资源进行分析鉴别、筛选加工、优化配置25。个性化知识需求,挑战着索引员的智慧,索引员只有紧紧围绕大数据时代的要求来开展工作,才能激发索引工作的生机和活力。

 

3  大数据时代需要索引员提高三种能力

大数据时代赋予了索引员重大的责任。索引员不仅要继承传统索引编纂工作所体现的日积月累、默默无闻的良好素质,又要积极融入到大数据时代轰轰烈烈、大张旗鼓的创业洪流之中去。履行大数据时代的历史使命,就必须着力提高索引员自身的能力。我国索引事业在当今的大数据环境中,呈现“传统索引、文献数据库和网络信息检索工具三分天下”26、互补共存的新格局,索引员只有不断提高自身的索引业务素养和能力,才能从容应对日新月异的大数据索引技术的挑战。首先,索引员要提高索引编纂能力,其中包括传统纸质文献的索引编纂,以及大数据时代数字索引的编纂技术能力。其次,在索引的国际标准( ISO999:1996 )中明确指出,“索引员要尽可能与用户多接触,并通过分析检索结果来检验标引工作质量。”27这句话中包含着索引员应具备沟通能力和分析能力。据此,形成了本文要阐述的提高索引员的“三种能力”,即编纂能力、沟通能力和分析能力。索引员的“三种能力”是相辅相成、相辅而行、不可分割的辩证统一体,编纂能力是索引员工作技术的前提条件,沟通能力是索引员完成编纂工作的主要环节,分析能力是索引员检验索引编纂成效的重要保证。其中,沟通能力对编纂能力和分析能力起着桥梁纽带作用,分析能力对编纂能力起着质量保障作用。

3.1  索引员的编纂能力

索引员的编纂能力是指以简明的方式分别著录标引,即确定其检索标识和指出其所在位置,并将款目按一定的可检顺序排列和组织,以方便用户检索28。随着索引编纂的标准化和多样化不断发展,从索引编纂手段和方式上,编纂能力分为手工编纂传统纸质文献索引;熟练运用各种索引软件和网站索引软件编纂索引;数据库建设的编纂能力。索引员编制一部高质量的索引著作,其工作性质是著述活动和学术活动。索引编制过程中,要对文献进行选择甄别,可能运用到版本学、文字学、校勘学、训诂学、文献学、索引学等知识29索引员不仅要学会几种计算机语言,如C语言、C++语言、JavaC#等;还要熟练运用一些索引软件,有助于对中文索引的直接编制、目录快速编纂、排版文档浏览、字词和页码排序、索引词表管理。目前索引软件有四种类型,一是独立索引软件,二是嵌入式索引软件,三是叙词表管理软件,四是网站索引软件30。如中文索引软件有索引之星;英文软件有CindexMacrex等;网站索引软件HTML IndexerXrefHT32等。又如以Access 数据库形式,编制题名索引、专题索引、图片索引、专名索引、课题档案索引等各种类型索引。为学科用户方便、快捷地提供书目、文摘、索引等文献线索31。在云环境下的索引技术,包括单维数据的索引结构和多维数据的索引结构,采用全局索引和局部索引两层结构,在实际存储数据的物理节点上建立本地索引,在服务器端建立全局索引提高了索引检索功能。索引分为聚簇索引和非聚簇索引两种,聚簇索引是按照数据存放的物理位置为顺序的,可提高多行检索的速度,而非聚簇索引有利于单行检索。根据数据库的功能,可在数据库设计器中创建三种索引:唯一索引、主键索引和聚集索引32。索引技术随着存储模型的改变而发展,海量数据的辅助索引结构中,与之匹配的海量索引项,给管理和高效访问算法的设计带来难题。一种可扩展性的辅助索引机制,如分片位图索引(Regional Bitmap Index),其索引结构运用计算机执行位图逻辑运算的优势,使用分布式的索引存储方法,有效管理了大规模索引结构。属性值的全局排序,解决了索引中存在的并发检索代价较高的问题,降低了对网络拓扑和通信系统的依赖,从而提高了查询效率33。这是大数据时代下对索引员编纂能力提出的基本要求,也是索引员完成历史使命的前提条件。

3.2  索引员的沟通能力

沟通能力是指使两方能通连,包含阐述和表达能力、倾听和理解能力等人与人之间的交流技能。沟通能力既是外在表现,又是内在体现,索引员的沟通能力是个人素质的重要体现,承载索引员的知识、能力和品德。大数据时代的索引员,一是要树立学无止境、终身学习的理念。在日新月异、飞速发展的计算机技术领域,索引员要把握大数据时代的脉搏,厘清大数据技术的脉络,密切关注业界资讯,参与网上社区的讨论和交流,如MSDN,CSDNITPUBChinaUinx等。二是要正确处理索引员与著者、出版者及用户三方关系,是树立主动服务理念的重要保证。其中,索引员是串联这三者的中坚力量,著者和出版者是知识组织者,用户是验证索引效果、产生最终效益的决定者。索引员应与著者共同探讨被标引文献,了解出版者的要求,并充分考虑用户对索引的潜在需求,从而提高索引质量。培养良好的沟通能力,有助于索引员在选择款目、取舍索引内容以及决定是否需要编制特殊索引时作出正确的决策。当著者、出版者、数据库管理员和索引员之间,产生编制成本、时间要求、版面设计、索引篇幅等问题时,用户的预期需求是索引工作的首选。出版者应给予索引员在文献中署名的机会。通常情况下,一部索引由两个或多个索引员完成,保持交流、沟通、协调一致是成功编纂索引的关键34。在现实工作中,索引员人手缺乏现象普遍存在,在高校,可通过招募和培训在校大学生志愿者或勤工助学者来完成部分编纂工作35,我们暂且称其为索引助理员。这既可以解决索引人力资源紧缺问题,又可以在大学生中普及索引基础知识和信息素养。这是大数据时代下对索引员沟通能力提出的基本要求,也是索引员完成历史使命的核心内容。

3.3  索引员的分析能力

分析能力是指把一件事情、一种现象、一个概念分成较简单的组成部分,找出这些部分的本质属性和彼此之间的关系单独进行剖析、分辨、观察和研究的一种能力。应对大数据时代的纷繁复杂的分析能力就显得格外重要,从索引的检索与分析这两大基本功能来看,索引员的分析能力对索引质量的提高起着举足轻重的作用。索引是文献计量学的分析工具,索引员要精通文献计量学。文献计量学是指用数学和统计学的方法,定量地分析一切知识载体的交叉科学。它是集数学、统计学、文献学为一体,注重量化的综合性知识体系。其计量对象主要是:文献量、作者数、词汇数。文献计量学最本质的特征在于其输出务必是“量”36索引员还要学习网络计量学知识。网络计量学研究的应用与发展于20世纪90年代中期,伴随着计算机网络技术的迅猛发展和网络信息资源的激增,使得传统的文献计量学、科学计量学、信息计量学已无法适应网络信息的测度和计量,这就促成了一种新型的网络信息计量工具的应运而生,即网络计量学的诞生。索引员要了解网络计量学的四种分析研究类型:一是运用统计方法对数据进行统计分析;二是运用图论的方法对数据进行可视化研究;三是运用提示数据聚簇和分散的工具进行数据挖掘研究;四是运用解释和模拟网络结构和增长理论工具进行模拟研究。索引员应该学会使用一些分析软件对数据进行洞察和分析,学会制作和解析知识图谱,如SPSS统计分析软件可以用作因子分析和多维尺度分析;CiteSpace软件是Java语言编写的基于共词分析的引文可视化软件37索引员可以为某一研究领域作数据收集及加载、研究词汇频率的增长率、时间切片、阈值选择、选择算法精简和合并网络、展示生成标准的聚类视图和时间序列视图、可视化检测以及确认关键点等程序。这是大数据时代下对索引员分析能力提出的基本要求,也是索引员完成历史使命的重要保证。

 

4  结语

大数据时代赋予索引员的责任和使命,就是通过不间断地学习,自我提高索引工作水平、自我完善索引工作能力。索引员利用新的理念、先进的技术,提升索引工作的服务效率, 并通过大数据技术来提升索引服务的水平。因此,研究提高索引员的工作能力,关注大数据时代的索引技术与方法,是促进我国索引发展和现代化建设的重要保证。

 

参考文献

1 涂子沛.大数据:正在到来的数据革命[M南宁:广西师范大学出版社,2012.7.

2 百度百科.大数据[DB/OL.2013-07-01.http://baike.baidu.com/view/6954399.htm.

3 王捷.大数据时代下图书馆开展信息服务的对策[J. 现代情报,2013(3):81-83.

4 樊伟红,李晨晖,张兴旺等.图书馆需要怎样的大数据[J.图书馆杂志,2012(11):63-68,77.

5 聂玉峰,陈雪帆.基于固态硬盘的在线全文索引管理策略研究[J.计算机工程与设计,2013(2):539544.

6 姚全珠,赵凯,郭梁涛.基于邻接字符对的三元后缀树全文索引模型[J.计算机工程,2012(18):42-49.

7 欧阳,张寅,张啸等.结构化稀疏谱哈希索引[J.计算机辅助设计与图形学报,2012(1):60-67.

8 甘早.基于DRtree的室内移动对象索引研究[J. 计算机科学,2012(10):177-181.

9 周大,梁智超,孟小峰.HF-Tree: 一种闪存数据库的高更新性能索引结构[J.计算机研究与发展,2010.47(5):832840.

10 吴飞,庄越挺.互联网跨媒体分析与检索:理论与算法[J.计算机辅助设计与图形学报,2010(1):1-9.

11 平保兴.“索引”一词从日本抄来的?[J.图书馆杂志,2010(3:18-20.

12 张琪玉.张琪玉索引学文集[M.北京:国家图书馆出版社,2009.

13 温国强.GB/T 224662008 〈索引编制规则(总则)〉应用指南》前言[J.中国索引,2012(4):6-8.

14 张琪玉.关于我国实施索引员资格认证和专业培训的思考[J.中国索引,2009(1):2-3.

15 《中国索引》编辑部.四种索引标准综述[J.中国索引,2005(1):2-4.

16 刘炜.数字索引学要旨[J.中国索引,2010(4):8-13.

17 百度百科.非结构化数据[DB/OL.2013-07-01http://baike.baidu.com/view/2119114.htm.

18 张琪玉.现代的索引就是数据库[J.图书馆杂志,2001(12):6-7.

19 明智勇.数据库技术的现状与发展趋势探索[J.产业与科技论坛,2013(1)80-81.

20 明智勇.数据库技术的现状与发展趋势探索[J.产业与科技论坛,2013(1):80-81.

21 温国强.GB/T 224662008〈索引编制规则(总则)〉应用指南》前言[J.中国索引,2012(4):6-8.

22 王捷.大数据时代下图书馆开展信息服务的对策[J. 现代情报,2013(3):81-83.

23 柯平,白庆珉,李卓卓等.图书馆知识管理研究[M.北京:北京大学图书馆出版社,2006.12:100,90.

24 史睿.索引与知识发现[J.中国索引,2006(1):2-9.

25 米海燕.专题索引的编制实践及案例分析[J.中国索引,2011(4):44-47.

26 温国强.GB/T 22466 2008〈索引编制规则(总则)〉应用指南》前言[J.中国索引,2012(4):6-8.

27 温国强,张敏,仇琛译.情报工作和文献工作――索引的内容、组织和表示准则(国际标准ISO999:1996)[J.中国索引,2006(2):39-53.

28 张琪玉.张琪玉索引学文集[M.北京:国家图书馆出版社,2009.

29 张琪玉. 索引工作的性质与索引工作者劳动的性质[J.中国索引,2004(3):2-3.

30 郭丽芳,温国强.国内外索引软件比较研究[J.图书馆,2010(4):47-48.

31 阎佳梅.Access编制索引提供课题服务的实践与探索[J.农业图书情报学刊,2010(4):227.

32 百度百科. 非聚簇索引[DB/OL.2013-07-01.http://baike.baidu.com/view/1615249.htm.

33 孟必平,王腾蛟,李红燕等.分片位图索引:一种适用于云数据管理的辅助索引机制[J.计算机学报,2012(11):2306-2316.

34 温国强,张敏,仇琛译.情报工作和文献工作――索引的内容、组织和表示准则[J.中国索引,2006(2)39-53.

35 张琪玉.吸引志愿者的力量发展索引事业[J.中国索引,2011(1):53.

36 百度百科 . 文献计量学[DB/OL.2013-07-01.http://baike.baidu.com/view/40533.htm.

37 赵蓉英,吴胜男.我国内容索引研究主题与研究热点的可视化分析[J.中国索引,2012(4):12-20.

 

朱晓霄上海金融学院图书馆副馆长,中国索引学会常务理事。