百度和谷歌的中文分词技术浅析
周满英
(上海中医药大学图书馆 201203)
摘 要 中文分词技术对搜索引擎、用户以及搜索引擎优化有着重要的影响,本文旨在通过实例检索,推导两个最常用的搜索引擎即百度和谷歌的中文分词技术和规律。
关键词 百度 谷歌 Google 中文分词
研究搜索引擎的中文分词技术,不论是对用户检索,还是做搜索引擎优化,都具有重要意义。同时,中文分词技术,对搜索引擎本身而言,也是相当重要,分词的准确性关系到检索结果的质量。
1 中文分词
分词又叫切词,对英文而言,是以词为单位,词与词之间有空格隔开,而中文是以字为单位,多个字连在一起才能构成一个表达具体含义的词,词与词之间没有分割,因此,对于支持自然语言检索的工具,从语句中划分出具有独立意义的词的过程即进行中文分词必不可少。目前的中文分词方法主要有三大类,分别为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[1]。基于字符串匹配的分词方法又称机械分词法,其原理是将搜索栏的字符串与一个庞大的机器字典中的词进行匹配,常见的匹配方式有:(1)正向最大匹配法,比如“走路和气质”,采用此法切分为:走路/和气/质;(2)逆向最大匹配法,针对上例的切分结果为:走路/和/气质;(3)最少切分法,使每一句中切出的词数量最少。还可以将上述各种方法相互组合,比如双向最大匹配法。一般来说,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。基于理解的分词方法是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。由于汉语语言知识的笼统、复杂性,这种方法目前还难以实现。基于统计的分词方法是根据汉字共现频率来分词,但是常会抽出一些并不是词的常用字组,比如“这一”、“我的”等。分词还有两大难点问题,即歧义识别和未登录词识别,这也是判断分词系统好坏的关键[3]。歧义问题有交叉歧义、组合歧义,交叉歧义是指若ABC分别代表一个字或多个字组成的字串,而A,AB,BC,C都是词表中的词[4],比如字串“部分居民生”;可以为“部分/居民/生”,也可分为“部/分居/民生”,组合歧义是指在字串AB中,如果A,B,AB都是词表中的词,则AB为组合歧义字串[4],比如“马上”,可以是“马/上”,也可以“马上”。未登录词是指没有被收录在分词词表中但是必须切分出来的词,包括各类专有名词(人名、地名、机构名)、缩写词、新增词汇等。中文词语分析一般都需要包括3个过程:预处理过程的词语粗切分,切分排歧与未登录词识别和词性标注。目前中文词语分析采取的主要步骤是:先采取最大匹配、最短路径、概率统计或全切分等方法,得到一个相对好的粗分结果,然后进行排歧、未登录词识别,最后标注词性。在实际的系统中,这三个过程可能相互交叉,反复融合,也可能不存在明显的先后次序[2]。
2 百度和谷歌的中文分词
中文分词是百度和谷歌的核心技术之一,因此不会将细节公之于众,只能利用黑盒方法进行推导,也即通过输入检索提问,查看结果情况,并通过两个搜索引擎都具备的网页快照功能查看各自对检索提问的分词情况。
表1 检索提问在百度和谷歌中的分词情况*
序号 | 检索提问 | 百度分词情况 | 谷歌分词情况 |
1 | “上海天气” | 上海天气 | 上海天气 |
2 | 上海天气 | 上/海/天/气 | 上/海/天/气 |
3 | 神曲忐忑 | 神曲忐忑 神曲/忐忑 | 神曲/忐/忑 |
4 | 比尔盖茨 | 比尔盖茨 | 比尔/盖/茨 |
5 | 旭日阳刚 | 旭日阳刚 | 旭日/阳刚 |
6 | 上海中医药大学图书馆 | 上海中医药大学图书馆 上海中医药大学/图书馆 | 上海/中/医药/大学/图书/馆 |
7 | 走路和气质 | 走路/和气质 走路/和/气质 | 走路/气质 |
8 | 朱德的母亲 | 朱德的母亲 朱德/的母亲 朱德的/母亲 朱德的/的母亲 朱德/的/母亲 | 朱德/母亲 |
9 | 旭日阳刚才 | 旭日阳刚/才 | 旭日/阳/刚才 |
10 | 骑马上山坡 | 骑马上山坡 骑马/上山坡 骑马/上/山坡 | 骑马/上/山坡 |
11 | 大长今天天向上 | 大长今/天天向上 | 大/长/今天/天/向上 |
12 | 分居民生活水平 | 分居/民/生活水平 分居民生活/水平 分居/民生活/生活水平 分居/民生活水平 | 分/居民/生活/水平 |
*注:检索时间为2011-2-27
2.1 推导百度的中文分词技术
第1个例子说明,如果对检索提问用引号做精确检索,百度对其不进行分词运算。例2说明,如果输入用空格进行分割的若干个子字符串,百度对其自动做分词处理(如果用标点符号分割,也会做自动分词处理)。例3、6、7、8、10等都说明百度对检索词会进行多种切分方式,并且首先是不进行切分,直接匹配,如果有结果则返回,并排在检索结果最前面;然后再按照不同形式切分之后再去匹配。例4对“比尔盖茨”的检索表明,百度有专有名词库,例5对“旭日阳刚”的检索表明,百度对新词收录较快。例9“旭日阳刚才”的分词结果为“旭日阳刚/才”也说明,百度对新词能够识别。例11“大长今天天向上”,百度能够识别出“大长今/天天向上”,“大长今”为一韩剧名,“天天向上”为一综艺节目,百度均能正确地识别,表明其词库收词范围很广,收词量很多。例7、8说明,百度对在分词时不会忽略“的”、“和”这些意义不大的字(即禁用词),可以做更多的尝试,百度对“了”、“吗”等都不会忽略,仍作为检索词进行分词。再探讨百度是正向最大匹配还是逆向最大匹配。例7中,对“走路和气质”可以分出“走路/和/气质”,这种结果像是逆向最大匹配法,再看例12,“分居民生活水平”,如果逆向最大匹配法的话应该是应该分为“分/居民/生活水平”,但事实上百度对这个检索提问的分词结果并不如此,在这个例子上看似为正向分词。因此,百度的分词不是单纯的正向最大匹配或者逆向最大匹配,采用的应该是双向最大匹配法。通过有多种划分方式的例子(比如例8),可以看出,百度首先是不进行分词,得到“朱德的母亲”,然后再识别出专有名词或新词,剩余部分又按照先不切分的方式,得到“朱德/的母亲”,然后用最少切分法原则,并且用到了3元交叉切分法得到了“朱德的/的母亲”。
2.2 推导谷歌的中文分词技术
例1说明,对于引号中的检索提问,谷歌不进行拆分;例2说明,用空格分开的子字符串,谷歌自动做分词处理(如果用标点符号分割,效果也一样)。例3、4、5、6表明,谷歌对于专有名词和新词识别能力较差,对“比尔盖茨”、“旭日阳刚”等都进行了分词处理,甚至连“忐忑”都划分为了“忐/忑”,“图书馆”划分为“图书/馆”,“中医药”划分为“中/医药”,说明谷歌的词库较小。例7、8说明,谷歌在分词时,会对检索提问中意义不大的字如“的”、“和”忽略,当作禁用词,然后再进行分词。例9、10、11、12都印证了谷歌采取的是逆向最大匹配法,并印证了对专有名词和新词识别能力差。在12个例子中涉及的专有名词和新词中,只有“朱德”被正确识别。
3 结论
通过上述分析,可以对百度和谷歌中文分词技术做一比较,主要有以下四点:(1)百度和谷歌对引号中的检索提问以及空格等分割的检索提问的分词规则相同;(2)对未登录词的识别能力上,百度明显占优势;(3)谷歌有禁用词消除功能,会忽略掉那些没有检索意义的常见连词、介词,这样可以提高检索速度,但是有时会去掉可能有检索意义的词的情况,百度则会将这些字符统一作为检索词进行分词;(4)谷歌采用的是较为单一的逆向最大匹配法则,而百度则同时做出多种分词方式,首先不拆分进行查找,然后先识别专有名词和新词,再对其余部分进行拆分,采用双向最大匹配方式。判断一个系统的中文分词功能好坏,主要在于消歧功能和对未登录词识别功能。并且优秀的分词策略应该是尽量不拆分,需要拆分时,先把长的拆成中的,如果结果还是少,再把中的拆成短的。基于这些因素,可得出结论,百度的中文分词技术要优于谷歌。
参考文献
1 何莘,王琬芜.自然语言检索中的中文分词技术研究进展及应用[J].情报科学,2008,26(5):787-791
2 吴亮.一种改进的最大匹配分词算法研究[J].现代商贸工业,2010(9):297-298
3 吴育良.百度中文分词技术浅析[J].河南图书馆学刊,2008,28(8):115-117
4 申兵一,巩青歌.中文分词技术在搜索引擎中的应用研究[J],计算机与网络,2010(1):60-63
周满英 上海中医药大学图书馆文献信息教研室助教。