・索引与数据库技术・
从文献线索提供到知识挖掘的跨越
――对信息检索智能化的展望
朱正娴
(上海社科院信息中心 200020)
摘 要 论述智能检索技术的基本特点、要求与技术要点。
关键词 信息检索 智能化 智能检索技术
传统的信息检索技术虽然给人们以相当大的方便,让人们从浩如烟海的互联网上获取信息,但由于其处理主题概念、标识之间的各种联系和因果关系的局限性,它们只能从文献标引的字符形式,而无法从文献的知识内容来提供信息,用户获取的往往是文献线索,而不是真正需要的实用信息。
目前的信息查询主要是按主题或关键词进行查询的。这种查询方式是一种严格的语法匹配的查询方式,因而往往会出现要么输出的无关信息太多,要么查不到任何信息的现象。换句话说,当前的基于语法的信息查询,其查准率很低。
在信息集成环境下,人们需要实现跨主题资源的互操作,以解决信息集合和需求集合的匹配与选择,达到最大限度地满足用户的信息需求的目的①。解决检索技术智能化成了我们需要加紧研究的课题。
1 智能检索技术的基本要求与特点
一般来说,智能检索技术应具有以下基本要求和特点:
1.1 基于自然语言,具有语义理解功能
自然语言是人类运用最广泛的交流工具,也是非常复杂的符号系统,要在互联网上快速查找到自己有用的信息,首先必须解决计算机系统对自然语言的理解问题,这是智能检索的核心,自然语言理解技术就是能让计算机理解并生成人们日常使用的语言,懂得自然语言的含义,并通过人机对话方式,用自然语言回答人们的提问,提供所查找的信息。
自然语言理解技术包括:机器翻译、语义理解、人机对话等方面②,通过大量词法、句法、语义、语用的分析来实现。运用自然语言理解技术,不仅能迅速检索出信息源,也使机器能准确地理解用户的要求,所提供的结果比较令人满意。
1.2 能对异构信息源的数据进行自动标引、匹配和整合
区别于传统检索,智能检索能用集成技术对异构信息源的数据进行自动标引、匹配和整合,允许用户对不同资源进行统一的查询,用户在对多异构信息源进行访问时,就象使用一个大数据库一样,用统一的方式使用来自不同数据源的数据③。
1.3 对多种类型的信息分类体系进行立体转换
目前的分类系统都是适应于某一个特定的分类体系的,智能检索的分类系统可以是一个全面的分类系统,可以同时包含多种分类体系,相互间可以方便地转换。这样,就能对文本内容从不同角度或不同侧面进行考察,从而挖掘出不同侧重的信息④。
2 解决检索智能化的技术要点
目前涉及智能检索研究的技术要点主要有:
2.1 知识表示和知识库技术
知识表示与知识库是人工智能的核心技术。
知识表示是指知识在计算机中的表示方法和表示形式,它涉及到知识的逻辑结构和物理结构。知识表示实际也隐含着知识的运用,知识表示和知识库是知识运用的基础,同时也与知识的获取密切相关。
知识库类似于数据库,所以知识库技术包括知识的组织、管理、维护、优化等技术。对知识库的操作要靠知识库管理系统的支持。 知识库系统,从概念来讲,它可以泛指所有包含知识库的计算机系统(这是广义理解);也可以仅指拥有某一领域广泛知识以及常识的知识咨询系统(这是一种狭义理解)。按广义理解,专家系统、智能数据库系统等也都是知识库系统。这里我们对知识库系统按狭义理解。
对知识表示与知识库的研究,虽然已取得了不少成果,但仍有许多问题需要解决。如知识的分类、知识的一般表示模式、不确定性知识的表示、知识分布表示、知识库的模型、知识库与数据库的关系、知识库管理系统等等。
2.2 联想技术和归纳技术
联想是最基本、最基础的思维活动,它几乎与所有的AI技术息息相关。因此,联想技术也是人工智能的一个基本技术。联想的前提是联想记忆或联想存储,这也是一个富有挑战性的技术领域。
归纳技术,是指机器自动提取概念、抽取知识、寻找规律的技术。显然,归纳技术与知识获取及机器学习密切相关,因此,它也是人工智能的重要基本技术。
由于归纳时需要分析、综合、比较,还需要反馈、修正、调整和优化等步骤。所以,广义地讲归纳技术也包括类比、控制、适应甚至进化在内。
2.3 智能搜索引擎关键技术
人工搜索引擎虽然可以为网上信息发布和信息查询提供方便,但随着网上信息站点和信息量的不断增加与更新,其缺点也就逐渐暴露出来了。一方面,由于其信息来源完全靠信息发布者主动提供,这样,当一个搜索引擎的知名度不高,或者信息发布者不能及时登记时,搜索引擎的信息查全率就会下降,以致失去了搜索引擎的作用。
引入智能技术,即变人工搜索引擎为智能搜索引擎,就能极大地提高信息检索和搜寻的效率。最好的查询方式莫过于自然语言查询。所以,自然语言查询接口将是提高搜索引擎查询效果和效率的最佳技术。目前,人们所研究的智能搜索引擎关键技术主要解决对自然语言的处理和理解,包括自动分词、自动句法分析、自动关键词提取、自动文摘、自动分类、自动索引和模糊检索、概念检索等。
为搜索引擎配置信息搜索程序,让其自动寻找、发现网络上新出现的信息(网站、网页和新闻组等),并对其进行自动分类、自动索引和自动摘要,并将分类或索引结果加入到搜索引擎(数据库)之中。这样,将有效提高搜索引擎的信息查全率。同时,为搜索引擎设计更强的信息检索功能,如模糊检索、概念检索等。这类检索技术能够对用户提供的关键词进行分析和理解,实现语义级而不仅仅是语法级的检索,从而提高查准率。
2.4 专家系统
专家系统(Expert System)亦称咨询系统,它是一种智能计算机(软件)系统。所谓专家系统,就是基于人类专家知识和程序的系统,专家系统的特点是拥有大量的专家知识(包括领域知识和经验知识),能模拟专家的思维方式,面对领域中复杂的实际问题,能作出专家水平级的决策,像专家一样解决困难、复杂的实际问题的计算机(软件)系统。专家系统是靠知识和推理来解决问题(不像传统软件系统使用固定的算法来解决问题),所以,专家系统是基于知识的智能问题求解系统。
2.5 知识发现和数据挖掘技术
知识发现的全称是从数据库中发现知识。知识发现主要流行于人工智能和机器学习领域,而数据挖掘则主要流行于统计、数据分析、数据库和管理信息系统领域。所以,现在有关文献中一般都把二者同时列出。
知识发现和数据挖掘的目的就是从数据库的数据中抽取和精化一般规律或模式。其涉及的数据形态包括数值、文字、符号、图形、图像、声音,甚至视频和Web网页等等。数据组织方式可以是有结构的、半结构的或非结构的。知识发现的结果可以表示成各种形式,包括概念、规则、法则、定律、公式、方程等。
参考文献
1 史田华.语义检索技术研究.图书馆杂志,2001(11)
2 姚佳梅.基于自然语言理解技术的网络检索.图书馆工作与研究,2003(2)
3 刘柏嵩,高济.基于RDF的异构信息语义集成研究.情报学报,2002(6)
4 杨建良,王永成.自动分类技术的发展与展望.中国索引,2003(1)
5 廉师友著.人工智能技术导论.西安电子科技大学出版社.2002年7月
朱正娴 女,1948年出生,副研究馆员,曾任上海市卢湾区图书馆副馆长,上海社科院图书馆副馆长,现任上海社科院信息中心主任。