全文检索时代自动标引的重要性孟 忻
发布时间:2018-09-25  浏览次数:48

全文检索时代自动标引的重要性

 

 

(吉林大学古籍所  长春  130012)

 

    本文叙述了目前人们可以通过网络数据库实现全文检索的情况下,自动标引的重要性,它可以针对海量信息进行检索和挖掘,可以把人类的思维同计算机技术相结合,使检索信息更完整、全面。

关键词  中文数据库  索引  自动标引

 

现在人们可以通过索引检到特定主题和特定类别的文章题目,如:上海图书馆研制的《全国报刊索引数据库》、广西大学研制的《古今图书集成索引》(网络版)以及北京印刷学院研发的索引编制软件――“索引之星”等。也可以通过网络数据库查到文章的全文。在当今信息社会,数据库是一种最基本的管理和传播信息的工具,是互联网发展的重要支柱之一,是整个社会信息化的一个重要因素。数据库这种现代化的索引形式,其编制和使用技术的广泛应用,推动了索引工作的现代化。目前互联网上的中文数据库很少,是一个亟待解决的问题。对我们索引工作者来说,这是一项历史任务,也是一个严峻的挑战。人们已经可以通过网络数据库实现全文检索,但这并不意味着标引的重要性的降低。与之相反,面对海量信息的检索与挖掘,标引反而显得愈发重要:

1 标引是信息过滤的必要方法

自动标引(Automaticindexing)是指利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程。自动标引技术已经向人工智能方向发展。

印本时代的手工标引已经被子电子环境的自动标引所替代,无论是电子环境还是印本环境,信息过滤都是非常必要的。尤其在充斥大量信息的网络环境下,对不同的信息价值进行过滤与甄别是必然的,而标引是信息过滤的必要组成部分。

标引是根据文献的特征,赋予文献检索标识的过程,包括两个主要环节:一是主题分析,即在了解和确定文献的内容特征及某些外部特征的基础上,提炼出主题概念;二是转换标识,即用专门的检索语言(标引语言)中的标识表达主题概论[1]。

2 标引是对信息的精炼与提升,对信息本身有智能贡献

传统经济学认为,人是完全理性的。他们掌握有充分的信息,决策不受时间和能力的局限,始终以利益最大化为唯一的追求目标。在竞争情报工作中,不管是信息收集、信息分析还是情报使用,都离不开人。图书馆和学术期刊的传统模式可能会过时,但标引的前途是光明的。标引能够为信息提供重要的智能贡献,而这种贡献的成本并不高。

目前,虽然自动标引技术多种多样,但由于技术的限制,小规模试验的效果较好,大规模应用的标引质量还是不高,标引过程中也少不了人的参与。自动标引技术距离完全实际应用仍有很长的距离,只有机器具有足够智能,才能完全替代人类完成这项重要工作[2]。

3 标引可以使检索更有效率、更准确

人们的阅读是带有目的性的,显而易见,浏览检索列表的关键词与文摘比检索海量全文效果更准确,也更有效率,全文数据库通过文摘可以获得更有效的使用,能更大程度的节省用户获取有用信息的所用的时间。关键词自动标引技术成为必然的发展趋势。

自动标引包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表片段或词汇的自动化技术。    关键词自动提取在文本挖掘领域被称为关键词抽取,在计算语言学领域通常着眼于术语自动识别,在信息检索领域,就是指自动标引。由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动摘要、自动分类、自动聚类等,都必须先进行关键词提取的动作,再进行其他处理。从这一点来说,关键词提取是所有文件自动处理的基础与核心技术。自动标引属于文本信息抽取的范畴。文本信息抽取是从文本数据中抽取人们关注的特定的信息。

最初,自动标引被用来解决文献缺少关键词这一问题。自动标引发展到今天,应用早已超过这一范围,它已经被广泛用于文本检索、自动问答、文本知识发现等领域。今后,随着互联网海量数据规模的进一步扩大,“信息爆炸”问题将变得更加紧迫。对信息资源进行基于主题的自动标引,并进行后续的数据挖掘,不仅能解决高维数据计算问题,并且能从主题或语义层次上对信息资源进行提示和控制。随着语义网的不断深入研究和应用,作为一个传统的研究课题,自动标引将不断被赋予新的含义和特定任务。同时,自动标引的应用领域将不断扩展[3][4]。

总之,目前的全文检索效率与质量并不能很好地满足人们准确检索的需求,关键词自动标引技术成了必然的发展趋势。理想的自动标引系统能够形成类人的思维过程,同时也需要吸收专家判断的经验。因此,自动标引技术的发展方向必然是向着语言分析和专家系统的方向发展。另外,多种方法集成学习,也将是今后自动标引技术发展的方向[5]。

随着网络的发展,信息的无序状态加剧,信息量成几何级数增长,这都使得自动标引不仅是图书情报业需要,而是成为了一种广泛而迫切的社会需求。计算机及信息技术的发展及应用,将为自动标引技术的研究带来更大的变化,最终方便用户,减少用户获取信息的时间和精力。

 

参考文献

1  叶鹰,潘有能,潘卫.情报学基础教程[M.北京:科学出版社,2006:127-131

2  陆汝钤.专家系统开发环境[M.北京:科学出版社,1994

3  曾元显.关键词自动提取技术与相关词反馈[J.中国图书馆学报,1997(59):59-64

4  王强军,李芸,张普.信息技术领域术语提取的初步研究[J.术语标准化与信息技术,2003(1):32-3337

5  张静.自动标引技术的回顾与展望[J.现代情报,20094):221-225

 

   女,1962年生,吉林大学古籍研究所副研究馆员。1983年毕业于长春联合大学(现在长春大学)图书馆专业。1987年至1990年就读于吉林大学中文系汉语言文学专业(专科起点函授本科),获文学学士学位。发表图书馆学论文十余篇,协助老师编著作书后人名索引三个(采用笔划笔形法)。