文 摘 本文首先讨论了在信息检索系统中应用统计语言模型的可行性,介绍了统计语言模型的简史以及在IR领域的研究进展,对信息检索过程中的两个模型作了公式化描述并简单介绍了数据平滑技术。接下来,介绍了支持语言模型在信息检索研究的工具箱――Lemur工具箱,并介绍了使用Lemur工具箱进行实验的方法、步骤,最后给出结论。
关键词 统计语言模型 信息检索 Lemur
语言模型是自然语言的数学模型,它主要描述自然语言的统计和结构方面的内在规律。计算机主要依据语言模型对自然语言进行理解。
语言模型就其研究方面而言,一般分为两类。一类是基于语言学知识的规则文法,另一类是基于统计的语言模型。研究发现,单纯依靠规则的语言模型几乎不可能完成对大规模真实文本的处理,只能处理受限文本。目前,以语料库为基础的统计语言建模方法成为潮流,它通过对语料库进行深层加工、统计和学习,获取大规模真实语料中的语言知识[1]。
1 在信息检索系统中应用统计语言模型的可行性
1.1 统计语言模型简史
统计语言模型很早以前就出现了,最先由Andrei Markov在20世纪初应用到俄国文献的字母序列建模。另一个著名的语言模型的应用是ClaudeShannon的字母序列和单词序列模型,他用来解释译码的含义和信息理论。后来,统计语言模型被发展成一种自然语言处理(NLP)工具。20世纪70年代末,语言模型第一次成功应用到自动语音识别领域的研究中。如今,标准的自动语音识别模型由两部分组成:第一部分是语言模型,它用来预测连续发音中的下一个单词;第二部分是用来对声学信号建模,因此称为“声学模型”。语音识别模型的后台支持是隐马尔科夫模型(HiddenMarkov Model)理论,它是由IBM的Leonard Baum和他的同事在60年代末~70年代初发明的。最近,隐马尔科夫模型作为通用图形模型形式化的一部分来研究,包含许多应用在统计学、系统工程学、信息理论和模式识别中的多元概率模型。例如,叶贝斯网络(Bayesiannetworks),马尔科夫随机域(Markov random fields),因子分析(factor analysis)等等。
1.2 统计语言模型在信息检索(IR)领域的研究进展
从1998年开始,统计语言模型被应用到IR领域。Ponte&Croft(1998)是最先建议使用语言模型进行信息检索的。Hiemstra(1998a)、Hiemstra&Kraaij(1999)最先提出了基于全局和局部混合概率分布的排序方法。Miller,Leek,Schwartz(1999)提出了使用隐马尔柯夫模型进行排序的方法,他们利用二元文法(bi-grams)对两个单词的短语建模,还执行了盲目反馈(blindfeedback)。Sahami(1999)提出一个基于“全局和局部分布的几何均数”进行文档模型的平滑处理的方法进行文档聚类。Berger&Lafferty(1999)以及Hiemstra&DeJong(1999)发明了一个包含统计翻译(Statistical translation)的模型。Ng(2000)介绍了一个使用比值P(q|d)/P(q)的模型,其中P(q|d)是给定文档时,提问的条件概率;P(q)是提问的先验概率(priorprobability),还提出了一种提问扩展(query expansion)的方法。Song&Croft(1999)使用了包含二元文法(bi-grams)的模型并引入了“GoodTuring”重估计的方法对文档模型进行平滑处理。
1.3 信息检索过程中的两个模型
首先我们来看信息检索过程中的两个模型,如图1所示。
d相关文档匹配模型t1,t1,…tn提问
提问公式化模型
s1,s2,…sn自然语言搜索语句
图1 信息检索过程中的两个模型
如果从香农的信息论的角度看待信息检索问题,那么相关文档d在通过第一个噪音信道的时候被破坏成提问t1,…,tn,然后提问在通过第二个噪音信道的时候又被破坏成请求语句s1,…,sn。信息检索系统可以认为是一个译码函数f:s1,…sn→d,它试图重现最初发送的消息,即找到和请求相关的文档。
我们的目标是选择f(S1,…,Sn),使得:
f(S1,…,Sn)=arg mdaxP(D=d|S1=s1,…,Sn=sn)
根据贝叶斯公式,我们有:
P(S1=s1,…,Sn=sn,D=d)=P(D=d|S1=s1,…,Sn=sn)P(S1=s1,…,Sn=sn)
因为P(S1=s1,…,Sn=sn)与d相互独立,所以:
f(S1,…,Sn)=arg mdaxP(S1=s1,…,Sn=sn,D=d)
=arg mdax ∑t1,…,tnP(S1=s1,…,Sn=sn,T1=t1,…,Tn=tn,D=d)
由于是两个独立的信道,所以我们得到:
f(S1,…,Sn)=arg mdaxP(S1=s1,…,Sn=sn,D=d)
=arg mdax ∑t1,…,tnP(S1=s1,…,Sn=sn|T1=t1,…,Tn=tn)・P(T1=t1,…,Tn=tn|D=d)・P(D=d)(1)
公式(1)中,P(D=d)是文档d相关的先验概率;P(T1=t1,…,Tn=tn|D=d)是给定相关文档时,提问的概率;总的来说,这两个式子定义了图1中的匹配模型。P(S1=s1,…,Sn=sn|T1=t1,…,Tn=tn)是给定提问的前提,得到自然语言搜索语句的概率,它定义了图1中的提问公式化模型。
1.4 数据平滑技术
由于语言模型的训练语料不可能无限大许多合理的词之间的搭配关系在语料库中没有出现,必然出现数据稀疏现象(datasparseness),称之为零概率问题。数据平滑技术用于解决该问题。它对采用最大似然规则的概率估计进行调整以产生更精确的概率。数据平滑使低概率(包括零概率)被调高,高概率被调低,模型参数概率分布趋向均匀。除了通常用来避免零概率之外,还试图提高模型的整体精度[1]。
目前,数据平滑技术主要有以下几种:简体插值(interpolation)、Katz平滑、Jelinek-Mercer平滑、Church-Gale方法、Kneser-Ney平滑等。
2 Lemur工具箱
2.1 Lemur工具箱简介
Lemur工具箱是由于卡内基-梅隆大学“信息检索及语言模型工作组”于2002年1月发布的,目前最新版本为2.0.1,其目的在于促进语言模型信息检索的研究工作。它支持对大规模文本数据库的索引,以及对文档、提问或文档子集构建简单的语言模型。除此之外,它还支持传统的检索模型,如向量空间模型(VSM)等。
Lemur工具箱主要为ad hoc检索任务服务,例如:比较文档模型的平滑策略;在标准的TREC文档集上用提问扩展(queryexpansion)的方法估计提问模型等等[15]。另外,它还提供了标准的对外接口供研究人员调用,目的在于促进新的检索方法的研究。
Lemur工具箱的主要组成部分如图2所示。
图2 Lemur工具箱的主要组成部分
2.2 使用Lemur工具箱进行实验的方法、步骤
对于不同的应用,使用方法有所不同,但是大多数应用都遵循以下两步:
1 创建一个参数文件,定义该应用所需的输入变量的值。比如:
index=/usr0/mydata/index.bsc;
表示为输入变量“index”指明了一个要创造基本索引的目录文件的路径(后缀.bsc表示基本索引(basicindex),如果为.ifp,则表示位置索引(position index))。
2 运行应用程序,以上述参数文件名作为唯一的参数或第一个参数。Lemur工具箱提供了每一种应用的详细文档,使用起来相当方便。
3 最新进展和未来的发展方向
语言模型吸引人的方面之一在于它可以用不同的方法来估计文档模型和“文档→提问”的翻译模型。C.Zhai和J.Lafferty论述了语言模型的平滑问题及其对检索性能的影响,并在不同的测试集中上比较了几种流行的平滑方法。在理解语言模型方法的形式基础上也取得了进展,比如,他们开发了基于贝叶斯决策论的通用框架,使得基本的语言模型方法以及Robertson和SparckJones的标准的概率模型都成为特例。
比参数平滑更有前途的方法是语义平滑,它类似于传统的术语加权(term weighting)方法[8]。论述了使用马尔科夫链的语义平滑技术。概率潜在语义标引技术(PLSI)是一种非常有前途的语义平滑技术。
4 结语
语言模型虽然成功的应用到了语音识别等研究领域,但是直到1998年,它才被运用到IR的研究中去。目前,语言模型在信息检索中的应用已经成为IR领域研究的一个热点,从检索性能上看,该方法要优于传统的向量空间模型方法,表现出了很强的生命力。
参考文献
1 陶志荣.N-gram语言模型的Katz平滑技术.2002(2)
2 C.E.Shannon.Prediction and entropy of printed English.BellSys.Tech.Jour.,Vol.30,pp.51-64,1951
3 L.Bahl,F.Jelinek,and R.Mercer,A maximum likelihood approach tocontinuous speech recognition.IEEE Transactions on Patern Analysis and MachineIntelligence,5(2):179-190,1983
4 P.F.Brown,J.Cocke,S.A.Della Pietra,V.J.DellaPietra,F.Jelinek,J.D.Lafferty,R.L.Mercer,and P.S.Roossin.A statistical approachto machine translation.Computational Linguistics,16(2):79-85,June 1990
5 A Lemur is a nocturnal,monkey-like African animal that is largelyconfined to the island of Madagascar.“Lemur”was chosen for the name of theUMass-CMU project in part because of its resemblance to LM/IR.(The fact thatthe language modeling community has until recently been an island to the IRcommunity is also suggestive.)
6 C.Zhai and J.Lafferty.A study of smoothing methods for language modelsapplied to ad hoc information retrieval,In 24th ACM SIGIR Conference onResearch and Development in Information Retrieval(SIGIR′01),2001
7 P.Ogilvie and J.Callan.Experiments using the Lemur toolkit.InProceedings of the Tenth Text Retrieval Conference(TREC-10)
8 J.Lafferty and C.Zhai.Risk minimization and language modeling ininformation retrieval.In 24th ACM SIGIR Conference on Research and Developmentin Information Retrieval(SIGIR′01),2001
9 V.Lavrenko and W.B.Croft.Relevance-based language models In 24th ACMSIGIR Conference on Research and Development in Information Retrieval(SIGIR′01),2001
10 J.Lafferty and C.Zhai.Probabilistic IR models based on document andquery generation.In Proceedings of the Workshop on Language Modeling andInformation Retrieval,Carnegie Mellon University,May 31-June 1,2001
11 T.Hofmann.Unsupervised learning by probabilistic latent semantic analysis.MachineLearning,42(1),pp.177-196,2001.
12 J.callan,W.B.Croft,and J.Lafferty,eds.Workshop on language modeling andinformation retrieval.Proceedings of a workshop held at Carnegie MellonUniversity,May 31-June 1,2001
王志勇 第二军医大学图书馆硕士研究生
耿亦兵 第二军医大学图书馆馆长,研究馆员