黄页分类计算机自动标引的实现 贺七一
发布时间:2018-09-27  浏览次数:31

黄页分类计算机自动标引的实现

  

(中国电信集团黄页信息有限公司  上海200080)

            黄页分类工作是电话号码簿编辑的主要工作之一。黄页公司一直致力于探索运用计算机技术对黄页数据分类进行自动标引。1998年开始进行人机对话的计算机自动切分工作,现切分结果的正确率达到了60%以上,标引速度达到了每小时1200条。

         关键词  黄页分类  人工标引  自动标引  切分

 

       上海电话号簿诞生于1900年,当时是一张表格,刊登了93个电话号码。80年代开始,十一届三中全会确定了以经济建设为中心的方针,电话事业随之发展,电话数量逐步增长,1987年,新中国成立后的第一本上海黄页诞生了。二十多年来,根据读者方便、客户满意的企业方针,我们对电话号簿的编辑也进行了不断的改进,其中最主要的是建立了完善的、适应市场的黄页分类体系,彻底摒弃了传统的按公司、工厂、商店、中心的分类划分模式。1  黄页主户信息和黄页分类

      谈到黄页分类体系,首先就从黄页上刊登的电话用户信息谈起。我们将通过各种途径得来的信息,经过特定的标准进行加工,并作为出版各类信息产品的基础数据,这些数据存放于一个数据库中,我们称之为“黄页库”。黄页库中的信息反映的是电话的实际使用情况。每一户电话用户都有户名、地址、电话、邮政编码等基本信息。

      具有主户性质的户名,我们称为“主户名”,满足“任意名+行业性质+单位属性”的性质。主户名的构成:

地区名+

任意名+

类别(分类)+

单位属性

1

合宇

叉车

有限公司

2

南京

科技文化进修

  学校

      黄页是以广告为主体的,黄页的精髓就是按分类进行排列,即主户名在黄页中都按户名的类别(分类)和单位属性来编排,因此,我们在日常维护这些数据时,首先要对主户名进行分类,即根据类别和单位属性给每一户主户都标上它所属的行业分类。黄页分类工作就是将杂乱无章的电话用户的资源有序化,使之成为可利用的、有价值的资源。原始的电话用户信息都是零散的、孤立的信息,这样的信息对存储、检索和利用都十分不便。为此我们根据一定的目的要求对它们进行整序,使零散、孤立的电话用户信息,经过分类,加工成系统有序、相互联系的整体,以满足人类社会活动、经济活动的信息需求,使这些信息为人所用,成为具有使用价值的商品,从而为组织数据库、编著黄页产品、为业务员提供销售资源、为广告客户进行经营业务的宣传、为用户提供快速而有针对性的行业检索提供了有力的保障。运用辩证唯物主义的理论,将从总到分、从一般到具体的逻辑分类方法运用于电话号簿数据分类的这种方法,就是黄页分类,它是近10余年才逐渐形成和发展起来的。

2  黄页分类表的构成

      黄页库主户数据分类时遵循的分类表为“黄页分类表”,它是分类划分得最细致、最全面的基础分类表。黄页分类表的体系结构遵循逻辑的、逐级次第进行划分的规则。每一个分类的名称叫作“类目”。类目是黄页分类表最基本的单位,是构成黄页分类表的主要成分。类目采取从总到分,从一般到具体逐级展开。类目名称的设置要做到概念清楚、词义准确,有专指的检索意义。“黄页分类表”一般以行业及产品名称设置类目的名称,为了便于检索,类目名称不以“其他”、“综合”等词命名。“黄页分类表”按顺序给每个类目一个代码,一个类目只能有一个代码。

   黄页分类表分为若干个板块,第一板块为“党政  国家机关  社会团体”,俗称“蓝页”,第二板块至第十三板块为第一产业、第二产业及第三产业(除蓝页外)的全部行业,俗称“黄页”。每个板块被区分为若干个二级类目,每个二级分类又被分为若干个三级类目,以此类推,分类表一直可分至六级类目。

    黄页分类表举例如下:

    党政  国家机关  社会团体(K10100)

    中国共产党及其所属机构(K20101)…二级类目

      中央党委及其所属机构(007914)…三级类目

      省党委及其所属机构(007915)……四级类目

      自治区党委及其所属机构(007916)

      直辖市党委及其所属机构(007917)

      区、县党委及其所属机构(007918)

      市党委及其所属机构(007919)

      (区、市)党委及其所属机构(007920)

      ()党委(002007)

      街道党委(002009)

    人大常委会(K20102)

      全国人大常委会(002017)

      省人大常委会(002018)

      ……

    城建  房产  建筑建材(K10700) 

    城市建设(K20701)

      城建管理(002998)

      公用事业管理(002900)

      市政建设(K32410)

      市政工程建设管理(002941)

      市政工程建设(000184)

      道路、隧道、桥梁工程(007177)

      市容市政环境卫生(K32420)

      市容(市政)监督管理(007923)

      城市排水服务(000186)

      ……

3  黄页分类的标引——从人工标引到自动标引

        黄页分类于1987年率先用于以行业形式编著的上海电话号簿。现在除了在纸质号簿的编著使用外,还应用于中国电信互联网黄页、黄页电子号簿等。黄页分类也从481个发展到现在的2000多个分类,实现了分类设置的时代性、动态性和科学性。因此,黄页分类工作也是号簿编辑的主要工作之一,贯穿于编辑工作的始末,是将黄页数据归类的有效手段和方法。    1987年开始,我们一直采用人工标引的方法对黄页数据进行分类。标引工作是一种智力劳动,需要进行行业主题分析,确定标识代码等操作活动,标引人员不但要有专业知识,而且要具备一定的综合素质。因为当时的黄页数据主户量不大,人工标引基本能满足出版电话号簿的需求。直到1996年,当时的黄页数据库已达到了20余万条电话用户主户信息,数据库是动态的,来自电信的电话增删改信息及从社会上采集到的信息,每天约有上千条数据要进行分类标引,而且黄页分类表的类目也增加到了1000多个,人工标引的难度日渐增加,速度显然无法满足数据处理和出版号簿的需求,不但速度慢,而且一致性差。为了解决这些问题,我们开始探索运用计算机技术对黄页数据分类进行自动标引,以代替人工操作。我们认为,可以从总结人工标引的有规律性的过程着手,逐步分解整个过程,最终实现自动化或半自动化。

      其实,自动标引自二十世纪60年代开始研究以来,一直存在一种有趣的现象,即:一方面,人们对自动标引的效果一直评价不高;另一方面,作为一种方法,自动标引一直在研究改进,并且在实践中应用。

        人们对自动标引的效果一直不满意,这是客观事实。兰开斯特在二十世纪90年代后期评价自动标引效果的时候就指出,“就所取得的结果,处理的时间和处理成本来看,即使是当前最成熟的方法距离理想也还是很遥远的。而且,现在只有相对较少的系统能够真正具有操作性,也就是它们能够为日常生活提供现实的服务。”“一般情况下,即使是当前最成熟的自动标引程序,也比不上技术熟练的人工标引。”张琪玉教授在讨论自动标引现状时,则引用了储荷婷的一段话,表达他的看法,认为,“以自然语言研究的主要方面——自动标引来说,‘在某种意义上恰似机械鸟的制造,经过20多年的试验,有些外貌开始像鸟,有些能够模仿几声鸟鸣,有些能扑打一番翅膀,但至今还没有一只会飞、会鸣’”,“‘绝大多数自动标引系统始终未能走出实验室大门,投入使用’”。应该说,这些评论客观地评价了自动标引达到的水平。

      我国的自动标引研究由于汉字特点等原因,始于上世纪80年代初,比国外整整晚了20年。但90年代中期以后,就开始逐步出现供实际使用的自动标引系统。如:从1996年开始,中国医科院情报所就采用人机结合的方式建立生物医学文献数据库。该系统按照分类主题词集与标题、文摘匹配的方式,同时为文献赋予分类标识和主题标识,并以人工辅助的方法加以控制,可以由3个标引员辅助完成全年约20万条款目的标引量。

      为了实现计算机进行黄页户名的自动分类标引,就要解决两个关键性问题:

    1. 计算机如何将户名中的类别(分类)和单位属性自动抽取出来?

    2. 计算机如何将抽取到的类别(分类)和单位属性与黄页分类表的类目对应?

      我们首先尝试性地对黄页数据库的户名进行人工切分提取类别(分类)和单位属性,将这两项内容组成分类细目表,并在分类细目表与黄页分类表之间建立一定的对应关系,我们期望能在户名和分类细目表之间建立一对一的关联,在分类细目表与黄页分类表之间建立多对一的关联。实际进行人工切分建立对应关系时,我们发现,一组类别(分类)和单位属性会对应到多个黄页分类类目,而人工标引时,往往需要再通过黄页户名中其他的行业主题词来确定它的最终黄页类目。于是,我们重新调整思路,对分类细目表进行了扩充和细化,加入了行业主题词,即我们对黄页数据库的户名进行人工切分提取类别(分类)、单位属性和行业主题词。这样形成的分类细目表,终于能与黄页分类表之间建立对应关系了。而且,多组分类细目可以对应到一个分类类目,一组分类细目不会对应到多个分类类目。分类细目表共有四层细目,黄页分类表与分类细目表之间的关系见下表:

         建立了行业主题词库即分类细目表,解决了第2个关键性问题,那么,第1个问题又如何解决呢?汉语不同于英语、德语、法语等印欧语系,该类语系在书写时词与词有空格分开,而汉语在书写时词与词不留空格,因此对数据的分类自动切分带来了困难。如何从黄页户名中抽取类别(分类)、行业主题词和单位属性呢?带着这个问题我们请教了计算机方面的专家和分类专家,共同商议出解决户切分的算法。

      假设我们要切分户名“上海市纺织品进出口有限公司”,首先把户名字符赋予目标字段X,将X与分类细目表的D项相匹配,不一致则去掉X的首汉字,X为剩余部分“海市纺织品进出口有限公司”,再与分类细目表的D项相匹配,不一致则再去掉X的首汉字,X为剩余部分“市纺织品进出口有限公司”,还不一致则再去掉X的首汉字,直到X为“公司”时终于与D项匹配,这时,有多条分类细目与X“公司”相匹配,选择哪条细目则需要继续与C项匹配后才能判断。我们把原先的目标字段X去掉已匹配到的“公司”部分,X为“上海市纺织品进出口有限”,采用上述方法截取字符,直到截取的“进出口”与C项匹配。这时还不能确定分类,因为满足条件的分类细目的B项都有内容,需要继续截取户名中的字符与B项匹配。依此类推,我们发现“纺织”与B项匹配,这时,该分类细目的A项无内容,从分类细目表对应到黄页分类表,终于能唯一确定该户名的黄页分类是“纺织品进出口贸易”。这样,通过层层匹配、层层定位,我们又解决了第一个关键问题。

       于是,1998年我们开始运用以上算法对黄页库的全部数据进行人机对话的计算机自动切分工作,建立了黄页切分的细目,也就是行业主题词库。该词库现有细目29000条。然后,在此基础上又进行了计算机自动切分,切分结果的正确率达到了60%以上。标引速度达到了每小时1200条,远远超过了人工标引的300条。

      当然,计算机对黄页户名中表示类别(分类)、单位属性和行业的词进行自动判断,并根据分类细目表与黄页分类表的对应关系切分出分类,还需要由专业的编辑人员对切分结果进行审核,以保证计算机生成的黄页分类的正确性。从优化的角度看,计算机充分代替了人工操作,将人工操作降至最低限度。另一方面,人的主体指导地位也始终存在。

      从此,黄页分类工作又加入了新的内容,主要包括两个方面,一方面是黄页分类表的制订与维护,另一方面是黄页数据的日常分类切分与维护工作。

        自动标引系统的使用,有其必然性。信息资源的迅速增长对标引的及时性和海量信息处理能力的要求,以及自动标引技术的发展,使自动标引在标引能力、处理速度、处理成本、处理的稳定性等方面具有人工标引所不具备的优势。自动标引工作将是一个长期的课题,我们应该与时俱进,运用先进的自动标引技术,构造一个更先进的黄页分类计算机自动标引系统。

        贺七一    中国电信集团黄页信息有限公司,国内运行部业务经理,工程师。