网络信息移动搜索的结构框架与技术机理探讨 王知津 韩正彪 周 鹏
发布时间:2018-09-25  浏览次数:24

网络信息移动搜索的结构框架与技术机理探讨

知津  韩正彪   

(南开大学商学院信息资源管理系  天津 300071

    网络信息移动搜索作为传统互联网搜索的进一步延伸,可为用户提供随时随地的个性化信息服务。在界定网络信息移动搜索的概念和特点后,重点对其整体框架和搜索技术机理进行探索。

关键词  移动搜索  信息资源  搜索引擎  无线应用协议

 

Abstract: Web information mobile search is the further development oftradition internet search, which can support individuation information serviceat anytime and anywhere. Defining its conception and characteristics, theauthors make an explorative research on its structure frame and searchtechnology mechanism.

Keywords: mobile search information resource search engine wireless application protocol

 

1  引言

信息爆炸与信息饥渴一直是困扰网络时代信息用户获取所需信息而面临的难题。互联网搜索引擎的出现虽然在一定程度上缓解了这种困境,但为用户提供个性化的随时随地随身的信息搜索服务仍有一定差距。随着独立WAPWirelessApplication Protocol,无线应用协议)的兴起和3G(3rdGeneration,第三代移动通信技术)技术商用的热推,作为信息产业搜索引擎和移动通信两大热门领域融合的网络信息移动搜索已逐步成为互联网搜索模式转变和创新的新起点。

目前,对网络信息移动搜索的研究主要集中于计算机、通信和图书情报三个领域,重点围绕其发展概况[1]、业务方式与盈利模式[2]、技术模型[3]、搜索平台[4]和发展趋势[5-6]五个主题展开。但已有研究仅仅是从各个学科的视角进行探索,具有一定的局限性;且未对各个主题之间的交互关系进行探索。在已有研究成果的基础上,本文重点对网络信息移动搜索的整体框架和具体搜索机理进行分析,以期对网络移动搜索的技术有一个整体的认知。

2  网络信息移动搜索的概念与特点

2.1  概念

网络信息移动搜索是指以无线网络为传输层,对分布在互联网和无线网的信息资源进行搜集和整理,然后提供给便携式移动用户终端的一种信息资源管理活动。在处理信息资源的程序方面,网络信息移动搜索与互联网搜索引擎具有一定的相似性,包括信息搜集、信息处理和用户信息查询三个阶段。但更重要的是不同点,网络信息移动搜索更加强调对用户需求的确切回答,具有准确性和个性化特点,而不仅仅是像互联网那样仅仅提供的一些链接。网络信息移动搜索提供的是个性化的信息服务,而网络搜索提供的是信息检索功能[2]。

2.2  特点

1)准确性

网络信息移动搜索准确性高的特点可以从用户便携式移动终端设备的特点和网络信息移动搜索运行方式两个方面来考察。手机和PDA终端的界面较小,搜索结果的显示不可能过多,因此用户对搜索结果的查准率要求很高,而对查全率要求较低。同时由于网络接入速度较慢和运营方式(一般情况需收取流量费)等特殊状况,进一步推进了用户对网络信息移动搜索结果准确性的需求。

2)个性化

网络信息移动搜索的终端一般都是唯一的用户使用,可结合移动用户的搜索记录、搜索习惯等个人偏好进行分析筛选,为用户提供最为符合个人需求的搜索功能[7]。随着带有GPS功能的智能手机的出现,网络信息移动搜索可以识别用户所处的时间和地点,为用户提供本地个性化信息。

3  网络信息移动搜索的结构框架

广义上,网络信息移动搜索实质上是信息资源管理活动的一种形式,是一种满足信息用户需求的一种途径。其结构框架具体可从业务需求、业务系统结构和业务支持实体三个方面来理解,如图1所示。

 

1  网络信息移动搜索的结构框架

3.1  业务需求与支持实体

业务需求,即用户信息需求,是网络信息移动搜索展开的起始点,整个结构框架都是围绕业务需求展开。由于用户的信息需求具有准确性和个性化等特点,因此,需要相应的搜索引擎具备语义分析、智能分析和行为分析等多种功能。

业务支持实体是为网络信息移动搜索的运行提供技术和设备支持的运营商。便携式设备终端厂商主要是为用户提供移动搜索的设备层服务。而整个具体业务搜索过程的实现是依靠服务提供商借助通信和计算机技术实现。目前,已形成了传统互联网搜索引擎服务提供商(如百度、Google)、WAP门户的移动搜索平台(如悠悠网)和专业移动搜索服务提供商(如移动运营商的“移动梦网”)三大阵营。

3.2  业务系统结构

1)设备层与接入层

设备层是便携式设备终端厂商开发的终端工具,主要是手机和PDA等。接入层指使用移动搜索业务的各种方式,如WAPIVRJava/Brew和短信等。其具体接入方式如图2所示。




 


 

 

 

 

 

 

 

 

 


2  网络信息移动搜索业务接入方式

2)综合管理平台层

综合管理平台层主要负责用户接入和搜索引擎的接入等综合业务管理。用户接入管理包括上文提到的各种方式接入的接口、将搜索结果展现给用户的接口、用户行为日志的记录与分析三个方面。搜索引擎的接入管理负责对用户不同的搜索请求进行分析,然后选择合适的搜索引擎去实现,并对用户得到搜索结果的后继操作进行记录和统计[1]。

3)搜索引擎层

搜索引擎层是整个搜索业务展开的最为关键的一步。但网络信息移动搜索具有接入方式的多样性与搜索范围广泛性等特征,因此存在WAP搜索引擎、Java/Brew搜索引擎和IVRInteractive Voice Response,互动式语音应答)搜索引擎等多种类型。

4)内容整合平台层

网络信息移动的搜索内容比传统互联网的搜索内容更加广泛,信息资源的格式与类型也更多样化。因此,需要一个内容整合平台层来负责对来自互联网、无线网和本地的信息资源进行整理分类,以提高搜索的效率。

4  网络信息移动搜索的技术机理

网络信息移动搜索与互联网搜索引擎的技术相类似,主要分为网页搜索、预处理和查询服务三个过程,但在具体机理方面又有一些特殊之处,如图3所示。就搜索方式来说,可分为站外搜索和本地信息资源搜索两种形式。由于后一种搜索方式的步骤仅在搜集和过滤方面与站外搜索不同(文献[8]已有较为详细的介绍),且Java/BrewIVR搜索引擎的原理都与WAP搜索引擎的机理类似,下文主要探索基于站外信息的WAP搜索引擎的技术机理。




 


 

 

 

 

 

 

 

 

 

 

 

 

 

 


3  网络信息移动搜索引擎搜索技术机理图

4.1  网页搜索

站外搜索指的是对广泛的WAP站点以及Web站点的搜索查询,是传统互联网搜索服务在移动平台上的延伸[9]。网页搜索是实现站外搜索的关键步骤之一,主要包括爬行和抓取,即图3中的搜集阶段。主要是通过网络爬虫将WAP站点以及Web站点的页面爬取到本地服务器,然后将爬取的页面按照URL路径生成的目录层次进行存储,提供给后续的预处理阶段。其具体实现可借助已有的成熟的搜索引擎(如百度、Google)或研发自制的爬行和抓取程序。该阶段与传统的搜索引擎的爬行机理一致,只是爬行的范围更加广泛,站点类型多了WAP站点。

4.2  预处理

1)过滤

过滤是对网页搜索的原始信息资源进行净化和消重,包括精简网页内容、清理无关信息,提取有效的正文和关键词。由于涉及到WAPWeb两种站点,需要将Html网页统一转换为WAP协议标记语言文档。网页的净化和消重可以采用传统互联网搜索引擎中已经比较成熟的方法。

2)自然语言处理

自然语言处理中的分词技术是网络信息移动搜索中的关键步骤之一,决定着检索结果的精确性。在具体应用时,可依据查询语句的特点采用常用的基于统计的分词方法、基于理解的分词方法和基于字符串匹配的分词方法。例如,网络信息移动搜索中有的信息用户查询常常使用的是中文自然语句,则应用基于字符串的正向减字最大匹配法进行分词[10]。

3)索引

索引是指对过滤后的WAP站点和Web站点的网页信息进行处理,将网页到索引词的映射转化为索引到网页的映射,抽取出索引项,形成相应的索引表,最终建立可及时更新的索引库的过程。在索引库中,站点网页文字内容和关键词的属性(如出现的位置、字体和颜色等相关信息)都应有所记录,且能够定期更新。由网络信息移动搜索的终端用户信息需求特点可知,用户不可能会有过多的等待时间,而索引是决定网络信息移动搜索引擎性能的关键,可以提高信息查询速度。因此,具体设计网络信息移动搜索引擎时,可结合相应的业务功能与性能需求进行综合考虑,选择适合各自的文件索引格式,如倒排索引和后缀数组等。

4.3  查询服务

查询服务包括检索和结果展示两个步骤,是在对用户搜索语句处理后,从索引数据库中找出所有包含搜索词的网页,并借助用户行为日志,根据排名算法计算出哪些网页应该排在前面,然后按照一定的格式返回到“搜索”页面,将符合条件的个性化信息以排序方式或分类方式展现给移动终端的过程。

根据分析统计,用户平均查看搜索引擎返回搜索结果不超过两页,每页10个条目[11。鉴于网络信息移动搜索对精确性和个性化的要求,为了提高系统的响应性,可以在组合排序阶段只考虑前10个或者更少的存活文档。由于用户接口的设备对信息的显示格式有所差异,在查询结果的输出时,应对信息进行处理和相关格式的转换。

移动终端设备的用户界面,即人性化的人机交互界面设计对查询服务的用户满意度具有重大的影响。因为系统输入(用户查询语言)和输出(搜索结果展示)都是通过该界面进行。这也从另一个方面反映了网络信息移动搜索需要多个业务实体之间的配合,才能为用户提供更加便利的信息服务。

5  结语

综上所述,网络信息移动搜索是一个涉及范围广、集多种技术、多类业务实体于一体的新型研究领域。本文认为,网络信息移动搜索实质上是信息资源管理活动的一种,技术是为用户的信息需求做支持。尤其是在互联网搜索技术已较为成熟的背景下,关键是需要探索用户信息需求的特征,然后结合相应的通信技术与计算机技术为用户提供个性化的信息服务。同时,尽管网络信息移动搜索的搜索机理与传统互联网的搜索技术机理相类似,但在智能化和个性化方面存在较大的差异。本文重点对其结构框架和技术机理进行了阐述,各种智能技术和算法如何实施与运用还有待进一步探索。

 

参考文献

1  李华.网络搜索服务的新经济模式――移动搜索[J.中国索引,2009(4):9-13

2  徐顺山.移动搜索业务模式与技术实现分析[J.无线通信,2008(11):23-26

3  陈明,孙丽丽.基于WAP的移动搜索模型[J.计算机工程,20082):205-209

4  周燕,雷晓平.基于CORBA的移动网络搜索平台研究与实现[J.计算机与信息技术,20093):29-35

5  .无线搜索引擎的现状与发展[J.图书馆学研究,2007(11):32-34

6  马凌,侯正伟.移动搜索路在何方?[J.中国电信业,20092):58-61

7  杨慧锋.中国移动搜索概况研究[D.北京:北京邮电大学.2008

8  曾庆祥.移动终端本地资源搜索引擎的研究与设计[D.北京:北京邮电大学.2007

9  杜杏兰,杨彦格.移动搜索业务研究[J,信息通信技术,20092):5-10

10  BaldiP,FrasconiP,SmythP.Modeling the Internetand the Web: Probabilistic Methods and AlgorithmsM.John Wiley,2003

11  李晓明,闫宏飞,王继明.搜索引擎――原理、技术和实践[M. 北京:科学出版社,2004

 

王知津  男,1947年生,南开大学信息资源管理系教授、博士生导师,发表论文280余篇,出版著作29部。

韩正彪  男,1984年生,南开大学信息资源管理系情报学博士研究生,山东理工大学情报学专业硕士研究生毕业,发表论文7篇。

    男,1981年生,南开大学信息资源管理系情报学博士研究生,辽宁师范大学图书馆学硕士研究生毕业,发表论文4篇。