论文本的自动摘要
发布时间:2018-09-21  浏览次数:49

        自动摘要的研究是自然语言处理领域的一项重要且具有实践意义的工作,同时也是Internet信息处理的主要研究任务之一。本文叙述了自动摘要系统的历史和现状,并对它们做了归纳和总结。根据作者的观点,摘要大致可以分为五类;主题摘要、信息摘要、纲目摘要、摘录型摘要和评论型摘要。所采用的方法可分为下列七种:位置法、提示字串法、频率统计法、信息抽取法、框架法、理解分析法和仿人方法。

    关键词 自动摘要  自然语言处理  信息处理

    Abstract: The study of automatic summarizationis a vital and practical information-processing task in natural languageprocessing,and becomes an important problem in domains such as Internet informationretrieval.In this paper,the history of automatic text summary isdescribed.According to author's standpoint,summary can be classified into fivetypes:subject summary,information summary,outiline summary,extraction summaryand critical summary,and there are seven methods:location method,indicativestring method,frequency statistic method,information extraction method,famemethod,analysis method based on understanding and imitating human being method.

    Keywords: Automatic Summarization NaturalLanguage Process; Information Processing


1 时代的需要

    当今时代是一个信息爆炸的时代,各种信息如潮水般的向人们涌来。据报道,Internet上每天新出现的中文信息有3万多条,而它只占所有网上信息的0.4%。另外,当今时代又是一个知识经济的时代,在这个信息为主导的时代,信息的价值飙升。人们不仅关心获取信息的途径和手段,而且也越来越重视所获取信息内容的质量和有效性。信息筛选、信息获取、信息浓缩、信息索引和信息转换已是信息时代的强烈需要。

    自动摘要是计算机语言学和情报科学共同关注的课题,其本质是信息的挖掘和信息的浓缩。从理论上讲,对自动摘要的研究将有助于探讨人类理解、概括自然语言文本,并从中获取知识的认识模型。自动摘要被认为是计算机实现自然语言理解的重要标志之一。从应用角度讲,在文献电子化和Internet迅速发展的今天,自动摘要系统的使用将大幅度降低编制摘要的成本,缩短文摘的出版周期,为人们廉价、迅速和准确地获得所需要的信息提供方便。

2  摘要分类

    在自动文摘近50年来的历史上,专家学者们提出了各种各样的文摘方法。一般来说,自动摘要系统都由信息的理解、主题信息的提取、摘要生成三部分构成。因这三部分所采用的方法不同,摘要系统也可以划分成不同的类型。若从摘要的内容进行分类,可分为:

    1. 主题摘要

    在摘要过程中需要理解全文,抽取文章中主题(概念、句),组织成文构成摘要,作者原文摘要大致如此。这也是自动摘要系统的最高境界。

    2. 信息摘要

    根据用户特定信息要求,抽取有关信息,按用户所喜闻乐见的格式组织成有关信息的摘要(有人称其为理解型摘要)

    3. 纲目摘要

    在阅读并理解全文的基础上,识别文章的结构信息,给出全文目录纲要。

    4. 摘录型摘要

    大部分文摘句都是直接或间接选自原文,只有少数句子经过加工整理而成,手工文摘员的摘要大多如此。

    5. 评论型摘要

    在阅读大量同类文献的基础上,文摘人员对这些文献进行分析比较,在综合评价后形成的文摘。这类文摘需要文摘人员有较深的专业知识,对某一领域非常熟悉。

    其中,上述123种摘要也常被称为报道型摘要。

3 自动摘要研究历史与现状

    早在1958年,美国IBM公司的H.P.LuhnIBM704机器上开始了自动文摘系统的研制工作,开创了自动文摘的先河。十多年前,中国863计划就审时度势,开辟了中文自动文摘系统的研究。国内外专家学者通过自己辛勤工作研制出了很多系统,现摘录一些列表如下:

NO

国家

单位

研究代表

系统名称

主要方法

时间

1

美国

IBM公司

Luhn

 

取含较多高频实词的句子组成文摘

1958

2

美国

IBM公司

 

ACSI Matic

改进Luhn句子加权计算方法

1960

3

美国

 

Oswald

 

主张句子权重由实词(词串)数决定

1959

4

美国

 

EdmundsonP.E.Bacendale

TRW

将词分成三类:褒义、贬义、无效词,然后进行加权。指出段首句的重要性,85%的段首句表达主题。

1961

5

美国

 

Doyle

 

重视共现频度最高的词对

1962

6

美国

俄亥俄州大学

James.A.Rush

ADAM

强调删句而非选句

70年代初

7

美国

 

Lois Earl

 

试图探讨句式与句子重要性之间的关系,没有获得预期的效果

70年代

8

美国

Syracuse大学

Liddy

 

仿人得到经验文摘结构

70年代

9

美国

 

J.I.Tait

Scrable

转换为CD结构后再分析

70年代

10

美国

Yale大学

DeJong

FRUMP

由预言器与验证器选句

1979

11

美国

Yale大学

Schank

SAM

利用脚本分析

80

12

美国

GE研究开发中心

Lisa.F.Rau

SCISOR

理解型文摘,面向领域为公司合并消息

80年代末

13

美国

GE研究开发中心

Lisa.F.Rau

ANES

基于词频分析(相对词频)的方法,面向新闻领域

1995

14

美国

Cornell大学

Salton

SMARTIR

选中心段落为文摘核心

1998

15

美国

Carnegie Mellon大学

 

 

可以对多篇内容类似的文章做一个摘要

1998

16

美国

Lexis Nexis公司

 

LN

基于词、短语的方法进行关键词、关键短语的抽取

1998

17

美国

南加州大学

Chin Yew Lin

 

依据名子位置、文章体裁、Wordnet统计信息等信息选取摘要

1998

18

美国

新墨西哥州立大学

 

 

利用文章结构、词性标注、信息抽取等方法对句子加权

1998

19

美国

马赛诸塞州大学

 

 

采用查询扩展的方法,以用户输入的查询关键词在文章中选取合适的段做为摘要

1998

20

加拿大

多伦多大学

Daniel Marcu

 

采用修辞结构树的方法提取摘要

1998

21

日本

 

Uasida

 

利用神经元连接机制进行摘要生成研究

80年代末

22

日本

Toshiba

Kenji Ono

 

把句子分类、选句组织成文

90年代初

23

日本

 

Tadashi Nomoto

 

语料库方法

1997

24

日本

北海道大学

Maeda

 

将句子分成8类,并把主题、方法、结果、讨论四类句子留下做骨干,其它删除

1997

25

德国

康斯坦茨大学

Hahn

TOPIC

面向处理器领域的科技文献,属于框架法,进行了语法语义分析

80年代初

26

英国

Lancaster

Paice

 

利用指示性短语来选句,抽取所需要的信息填写固定格式

1977

27

英国

British Telecom

 

ProSum

基于统计方法、句子长度、句子位置等信息选取摘要

1998

28

英国

Surrey大学

 

 

采用词法内聚来识别文章中句子的关系,产生摘要

1998

29

意大利

Udine大学

Danilo FUM

SUSY

以一阶谓词为基础按用户需求,形成摘要纲要和文本纲要。分析原文,建立一阶谓词形式的机内表示。

80年代初

30

苏联

 

E.F.skoroxod'ko

 

选取和许多句子有联系的中心句为文摘句

1972

31

捷克

 

Jiri Janos

 

把文章分为主干和枝叶,删除枝叶,留下主干

1978

32

以色列

Ben Gruion University

Regina Barzilay

 

以词法链方法进行摘要

1997

33

新加坡

南洋大学

 

 

利用题名、位置、关键词、指示性短语选取文摘句

 

34

香港

城市理工大学

邵嘉彦

 

利用脚本知识表示的方法,通过与用户交互获取文摘

 

35

台湾

国立台湾大学

 

 

建立面向用户摘要,采用词性标注的方法

1998

36

大陆

上海交通大学

王永成等

ABS

仿人算法

1988

37

大陆

东北大学

姚天顺

 

利用脚本知识表示

80年代末

38

大陆

中科院软件所

李小滨  徐越

EAAS

主要依靠语法、语义的分析

1990

39

大陆

北京大学

马希文

 

收集用户需求,进行语法语义分析,生成框架抽取有关信息

1990

40

大陆

哈尔滨工业大学

王开铸等

HIT 863IHIT 863II

前者是统计型的系统。后者采用理解和信息抽取的方法

1992  1999

41

大陆

复旦大学

吴立德

FDASCT

对文本分词,然后进行统计

1996

42

大陆

南京大学

李明  程晓岚

 

以字频为基础方法

1996

43

大陆

山西大学

郭炳炎  薛翠芳  李晓黎

 

用基于统计的方法分析文本结构

1996

44

大陆

北京邮电大学

钟义信等

 

按用户需要抽取信息填写固定格式

1997

45

大陆

杭州大学

姜贤塔 陈根才

 

采用基于语料库的方法

1998

1  自动摘要研究历史和现状简表

4 自动摘要基本方法

    在自动摘要的研究开发过程中,各位专家学者提出并探讨了各种各样的方法。归纳整理如下:

    ① 位置法

    美国的P.E.Baxendale的研究结果显示:人工摘要中的句子为段首句的比例为85%,是段尾句的比例为7%。美国康奈尔大学G.Salton提出了寻找文章的中心段落为文摘核心的思想。我们观察表明:除了论题句、段首、段尾等句子之外,段落的第二句常常表示段落的主题。

     ② 提示字串法

    文章中常常有一些特殊的线索词(短语、字串、字串链),它们对文章主题具有明显的提示作用,可以利用它们来获取文章的主题。如Edmundson的文摘系统中有一个预先编制的线索词词典,词典中的线索词分为3种:取正值的褒义词(BonusWords)取负值的贬义词(Stigma Words)和无效词(Null Words),文章中句子的权重为各个线索词的权重的函数。Paice提出根据各种指示性短语(例如inthis paper…  the purpose of thearticle)来选择文摘句的方法。

     ③ 频率统计法

    能够指示文章主题的所谓有效词(或称实词)往往是中频词。根据句子中实词的个数来计算句子的权值,这是Luhn首先提出的。V.A.Oswald主张句子的权值应按其所含代表性的“词串”的数量来计算;而Doyle则重视共现频度最高的“词对”;1995Lisa.F.Rau采用相对词频的方法实现ANES(AutormaticNews Extraction System)系统。我们的实验表明:高频字串往往与主题相关度极大。

    ④ 信息提取法

    信息提取法常用于对一些特殊领域(如气象预报等)的文献资料做摘要。该方法根据用户的需求,首先构造出一个用户喜闻乐见的文摘框架(AbstractFrame),文摘框架以空槽的形式提出应该从原文中获取的各项内容,然后再把文摘框架中的内容转换为文摘(文字或图表)。因此,该方法常称之为二段式:抽取有关信息,然后生成摘要。美国Yale大学的DeJongShank所用的方法基本可以划于此类。

    ⑤ 框架法

    借助于文章的大小标题与语义段来作所谓的目次性摘要,这也很受欢迎。我们的统计表明:大部分科技文献(99.8%)的标题都能基本反映主题。捷克Janos把文中句分为主干句与枝叶句,删枝叶句留主干句的文摘方法可划归于此。

    ⑥ 理解分析法

    基于理解的自动文摘常包含语法分析、语义分析、信息提取和文摘生成,作者文摘应属于此。我们的研究表明:理解首先应着重篇章理解、段落理解,也就是理解应该是分层的,高层理解比低层理解更为重要。日本北海道大学的Maeda把句子按语义分为8类,然后用主题句、方法句、结果句、讨论句作为文摘骨干的方法,也可划归于此。

    ⑦ 仿人算法

    仿人算法是研究开发电脑上高级软件的捷径。要掌握仿人算法,首先要认真研究人工所用的方法,并从中提炼出可用于电脑上的算法,再加以发挥。简单说:仿人算法就是对人工方法的学习,模仿与发挥所产生的综合性方法。手工文摘人员在编制文摘时并不一定通读全文,往往只着重观察标题、前言、结束语及其论题句,以发现其主题,再挑选句子并修饰稍加组织生成文摘。人工很多经验都是值得注意的,例如:特别重视包含论题提示字串的句子,论题提示字串是指能提示文章主题的字串;重视文章的结构信息,紧扣主题;允许偏重,同一篇文献,不同用户兴趣点和观察角度可能不同,文摘的结果应当不同。

5 上海交大自动摘要系统研究成果

5.1  研究成果

    20世纪80年代中期开始,以上海交通大学王永成教授为领导的课题组即开始了自动文摘的探索工作。经过十多年的艰苦奋斗和辛苦工作,已经取得了初步成功:1995年的评测表明,我们所做的摘要与专家所作的全文摘录型摘要相当接近;1998年鉴定评议我们的摘要在技术上处于国际领先水平;1999年,我们的自动摘要系统通过了Turing测试,评测专家组的评测结果并不能区分出系统生成的自动摘要和人工所作的摘要,系统已经达到了实用的水平;2000年,根据国家863计划的要求,我们的自动摘要系统和新浪的Richwin2000实现了集成,并顺利地通过系统集成测试。下面是我们近一段时间内的成果:

    1988年开发出面向科技文献的自动摘要模型系统。

    1992年开发出面向新闻文献的自动摘要模型系统。

    1995年开发出不限领域的自动摘要模型系统。

    1998年开发出中英文自动摘要系统与网上自动摘要系统。

    1999年实现声控自动摘要系统。

    2000年研发成功网络版、捆绑版、报道型摘要系统、纲目摘要系统。

5.2  系统的功能和特点

    目前我们已经开发成功了新版本的中英文自动摘要系统。新版的中英文自动摘要系统能按用户指定的长度要求,在以秒计的时间里,对中文或英文的电子文献资料做出基本反映主题、文字流畅的摘要,其主要功能为:

    ① 可提供主题摘要。即自动确定文献的主题并可根据不同的长度要求做出摘要;

    ② 可提供偏重摘要。根据不同类型用户各自的侧重点编制摘要(例如对江泽民总书记的十五大报告,如用户对香港问题有兴趣,系统可将江总书记有关香港问题的论述全部标出或摘录出来)

    ③ 可提供定题摘要。即根据确定的主题种类摘录出相关的信息(例如对一篇企业介绍,系统可自动摘录出经营范围、主要产品和企业规模等用户指定的题目内容)

    ④ 可提供纲目摘要。在阅读全文理解的基础上,识别文章的结构信息,给出全文目录纲要,并进行链接浏览。

    我们的系统与国内外其它系统相比,它具有以下八个特点:

    ① 多领域。可以对多个领域文章做摘要,新闻类和科技类文章效果尤好;

    ② 多文种。一套系统即可处理中文和英文文献;

    ③ 多编码。可以对GBBIG5码的文章进行自动摘要;

    ④ 多控制方式。可以用键盘、鼠标和声音等多种方式控制系统;

    ⑤ 多平台。可以在DOSWINDOWSWINDOWS NTUNIX等多种平台上运行;

    ⑥ 多环境。可以单机运行,也可以在网络环境下运行;

    ⑦ 多格式。可对TXTDOCHTML等多种格式的文献进行自动摘要;

    ⑧ 多功能。可以实现“可变长度”、“偏重主题”、“声音输出”、“格式重编”等多种有用的功能。

5.3  系统的流程

    上海交通大学中英文自动摘要系统不但能用键盘和鼠标操作,而且集成了语音识别和声音输出功能,能用声音对系统进行操作。系统除了能处理本地资料外,还能够对Internet上的资料进行实时摘要。系统的流程图如下:

1 自动摘要系统流程图

6 结语

    像自然语言处理的其它领域一样,自动摘要的研究是非常困难的。我们在这一领域的工作还仅仅是一个开端,需要做的工作还很多。同时,也希望这个领域的工作能给自然语言处理,Internet信息检索和数字图书馆等等带来帮助。

参考文献

1 www.neci.nj.nec.com

2 www.Inktomi.com,June 2000

3 Paice,C.D.Constructing literature abstracts by computer:techniques andprospects.Information Processing & Management,1990(1):171186

4 Luhn,H.P.The automatic creation of literature abstracts.IBM Journal ofResearch and Development,1958(2):159165

5 Karen Sparck Jones.Summarizing:where are we now?where should we go?talkin ACL/EACL Workshop on Intelligent Scalable Text Summarization,1997

6 刘挺,吴岩,王开铸.自动文摘综述.情报科学,1998(1)6369

7 李小滨,徐越.自动文摘系统EAAS.软件学报,1991(4)1218

8 俞士汶,段慧明.《自动文摘评测报告》.计算机世界,1996183

9 郭祥昊,钟义信,杨丽.一种应用言语行为理论的新闻篇章理解与摘要生成方法.情报学报,1998(4)257262

10 莫燕,王永成.中文文摘摘要的自动编制.现代图书情报技术,1993(3)1013

11 陈桂林,王永成.Internet网络信息自动摘要的研究.高技术通讯,1999(1)3336

12 Kathleen Mckeown,Dragomir R.Radev Generating summaries of multiple newsarticles.SIGIR'95,1995:7481

13 Tomek Strzalkowski,Jin Wand,Bowden Wise.A robust practical textsummarization.In AAAI'98 Spring Symposium on Intelligent TextSummarization,1998:2633

14 Jade Goldstein,Mark Kantrowitaz.Summarizing text documents:sentenceselection and evaluation metrics.SIGIR'99,1999.121128

15 Churoh,Kenneth W.RauLisa F.Commercial applications of natural languageprocessing.Communications of the ACM.1995(11):7179

16 王永成.中文信息处理技术及其基础.上海:上海交通大学出版社.1991

17 Karen Sparck Jones.Natural language proceeding:she needs something oldand something new (maybe something borrowed and somethingblue,too).Presidential Address,ACL,1994

18 Brandow,R.,Mitze,K.,Rau,L.F.Automatic condensation of electronicpublications by sentence selection.Information Processing &Management,1995(5):675685

    王永成 上海交通大学计算机科学与工程系,教授,博士生导师