中文报纸文献内容深加工研究初探 薛春香
发布时间:2018-09-27  浏览次数:39

中文报纸文献内容深加工研究初[*]


 

薛春香

 南京理工大学信息管理系  210094

 

    报纸文献是一种未被充分开发的重要信息源。我国报纸文献数据库建设已经实现从题录库向全文库的发展,为报纸文献内容加工和挖掘提供了保障。但目前报纸文献缺乏统一完善的加工规范和标准,内容加工的方式也以简单的分类索引和人工剪报为主,加工自动化水平和加工深度不够,应向深层次、自动化、产品化方向发展。

关键词  报纸文献  内容加工  文献数据库  报纸著录  报纸标引

 

AbstractNewspaper is a kind of important information sources which is not fully exploited. The construction of Chinese newspaper literature database, which has shifted from bibliographic database to fulltext database, is the base for its deep content processing and mining. There are many problems in the process of newspaper literature treatment, such as lacking of uniform processing criteria and standards, simply processing methods, lowlevel automation and shallow processing depth. Thus, the content processing of newspaper literature should be directed to deeper, automation and product.

KeywordsNewspaper LiteratureContent ProcessingLiterature DatabaseNewspaper Article CataloguingNewspaper Article Indexing

 

1  引言

报纸文献是刊登在报纸上的新闻报道、广告等一切文字和图像资料,是一种极为丰富而未被充分开发的重要信息源,具有特殊的参考价值和史料价值,被称为“活档案”[1]。报纸文献的价值一直为专家学者所认同,但由于其加工远滞后于图书、期刊、学位论文等其他文献资料,导致其不便于查找获取,被引用率极低,其参考价值尚未得到充分发挥。据CSSCI统计,报纸文献被引用率一直徘徊在3%左右,远远低于图书期刊;其中五年内报纸文献量占被引报纸文献总量的比例(即普赖斯指数)超过60%2]。

随着数字出版和数据库等信息技术的发展,数字报纸逐渐风行,不少传统报纸也陆续发行数字版,并通过微机、手机、触摸屏等多种终端设备传递给各类用户。但也仅限于提供浏览阅读服务,在内容组织方面仍以报名、标题、日期、作者为主要著录项,主题加工和内容挖掘等深加工方面乏善可陈。本文拟对当前报纸文献内容深加工的现状和主要技术问题进行总结,以期对中文报纸文献内容深加工提出一些有益建议。

2  报纸文献数据库建设现状

从目前现状来看,报纸文献加工还处于大规模数字化阶段,主要体现在报纸全文浏览、版面还原技术研究,对内容的深加工研究比较薄弱,仅限于简单的分类索引和剪报应用。报纸文献数据库建设主要经历了三个阶段:(1)从纸质报纸索引向报纸题录库转变,以提供报纸文献线索为主;(2)大规模数字化加工阶段,主要是一些主流报纸的全文数据库建设和多种报纸文献混合的大型报纸全文数据库建设,以回溯建库为主;(3)数字出版阶段,各大报媒除发行纸质报纸外,还同步提供网络版、手机版报纸的浏览服务,并出现了综合性电子报纸平台,如8点报、AB报、爱读爱看等等,但这些报纸平台主要提供报纸阅读功能,对内容方面的建设很少。

早期的报纸文献数据库以题录库为主,主要是从印刷版的索引文献向题录数据库发展,内容检索以提供分类索引为主,以上海图书馆的《全国报刊索引》数据库和人大书报资料中心的《中文报刊资料索引》数据库为代表。这两种索引数据库作为主要的文献检索工具,对报纸文献进行了规范的主题标引和学科分类,为用户提供了检索的便利,但不提供原文获取。

全文数据库的建设是对报纸文献进行内容深加工的前提和基础。随着全文索取需求的增长,数字化加工的规模化、数字出版和报纸网络发行,各大报纸出版集团开始回溯和建设本报的全文数据库资源,如《人民日报》图文数据库、《解放军报》图文数据库、《中国青年报》图文数据库、《经济日报》全文数据库等等。自此,全文数据库建设取得了实质性进展。

此后,一些专业文献数据库服务商开始关注报纸文献全文数据库的建设,既有综合性的中国知网《中国重要报纸全文数据库》、方正阿帕比《中国报纸资源全文数据库》等,也有专题性的如维普《中国科技经济新闻数据库》、深圳巨灵《中国财经报刊数据库》等,详见表1

1  主要中文报纸全文数据库一览表

数据库名

收录范围

时间

加工内容(可检索信息)

中国重要报纸全文数据库(知网)[3]

500多种报纸,870多万篇

2000-

报名、刊号、日期、版号、栏目;题名、作者、关键词(机标)、《中图法》类号;专题浏览;全文

中国报纸资源全文数据库(方正阿帕比)[4]

400种报纸

 

报名、刊号、日期、出版地、栏目;文章题名、作者、关键词、版名、《中文新闻信息分类与代码》分类导航

中国科技经济新闻数据库(维普)[5]

420种报纸,305万条文献

1992-

报名、出版地、篇名、作者、关键词、《中图法》类号;专题浏览;全文

慧科中文报纸数据库

250多种报纸,1000万篇文献

1998-

报名、出版地、日期、篇名、作者、版面、栏目名、关键词;全文;同义词扩检

中国财经报刊数据库(深圳巨灵)[6]

55种报纸

1991-

报名、日期、篇名、作者、主题词(人工),全文;报纸分类导航

超星读秀搜索(报纸)

2000万条

 

报名、日期、篇名、作者、全文

注:数据主要来自于各数据库服务商提供的数据库简介,时间截至20116

从各数据库的规模来看,相较于国内目前正式在版发行的2000种左右的报纸种数[7],报纸文献数据库的加工规模远远不够;从各数据库的文献加工情况看,报纸文献的加工还处于浅层次阶段,主要提供:(1)基于报名、版名、新闻标题、作者、栏目等外部特征的检索;(2)基于全文索引的粗粒度全文检索;(3)基于简单分类索引体系的粗分类检索。个别数据库提供了基于关键词的主题检索和基于《中图法》或《中文新闻信息分类与代码》的检索与导航。

3  报纸文献内容深加工的主要方法

由于报纸信息含量大、覆盖面广、更新周期短,其内容的广泛性、新颖性和时效性均远超一般的书刊资料。但到目前为止,报纸文献的内容加工方式仍以索引和剪报为主。因此,随着报纸信息源价值的普遍关注和数字化报纸资源的普及,越来越多的学者提出,在报纸文献资源建设中,应重视报纸的内容深加工,从分类、主题到各种实体(包括人名、地名、时间、机构名、事件名等)对报纸内容进行全方位、深层次的揭示和挖掘;从传统的信息组织与检索服务向提供专题性、个性化、增值化的信息产品转变。

3.1  报纸文献内容加工传统方法

1)索引

各种索引是传统环境下实现报纸文献检索最主要的途径,也是开发利用报纸文献的重要手段。据调查,国内正式出版的2000种中文报纸中,目前仅人民日报、光明日报、解放军报、中国青年报、解放日报、文汇报、山西日报等配置书本式索引或数据库,其他绝大多数报纸都缺乏完善的检索系统,这与网络信息时代的要求及我国新闻事业发展的现状不相适应[8]。索引的类型以篇名索引和分类索引为主,其中分类索引主要依据《中图法》、《资料法》或自编分类体系来编制,以《全国报刊索引》为代表。

2)剪报

剪报的实质是将各种报纸上的信息按照专题进行采集、归类、汇总,形成全文型的资料性信息产品。剪报是信息机构针对报纸资源进行开发利用的主要方式,往往会依据本机构的服务特色就某些特定专题进行剪报,如深圳图书馆凭借毗邻台港澳的地理优势,以台港澳报纸中最新的经济消息和论述文章为一手资料形成特色的台港澳电子剪报数据库[9];广东省立中山图书馆在300多种报纸基础上编印了40多个专题的《金讯剪报》为上千家政府机关和企事业单位提供决策支持[10]。但无论是早期的手工剪报,还是现在的电子剪报,对人工的依赖程度都很大。

3.2  报纸文献的自动标引和自动分类

虽然报纸文献全文数据库建设规模越来越大,但基于全文的检索效率是低下的。因此,分类和主题标引依然是目前报纸文献内容深加工的主要形式。鉴于报纸文献信息量巨大,早在上世纪90年代就有学者提出了报纸文献的自动标引和自动分类。1994年,宋明亮提出报纸文献的机助自由标引研究,并设计了《解放军报》模拟检索系统,这是我国对报纸文献计算机标引的首次尝试[11]。1996年人民日报社辛乘胜提出了人民日报新闻文献自动标引系统的设计与实现[12],此后与北京大学计算语言所合作开发了《人民日报关键词标引系统》[13]。2000年,南京农业大学侯汉清、查贵庭提出了基于多词表的新闻自动标引,并以新华社新闻稿为例进行了自动标引实验[14]。2007年北方民族大学的马金林针对《申报》和报纸文献内容标引的特点,提出了《申报》自动标引系统的设计[15],详见表2

2  国内报纸文献自动标引典型系统

时间

研制者

名称

实现方法

1994

宋明亮

《解放军报》机助标引系统

关键词自动抽取,并利用后控制词表进行检索控制;并提出利用字面相似度计算来实现以词归类

1996-2002

辛乘胜、李素建

人民日报关键词标引系统

关键词自动抽取并借助词典进行同义词控制和规范;利用词表和规则进行了隐含主题标引;借助于分类表和词表的交叉映射实现归类。

2000

侯汉清、查贵庭

基于多词表的新闻自动标引

基于多词表的关键词抽取、命名实体抽取、主题词规范和分类号转换

2007

马金林

《申报》自动标引系统

基于各种词表进行主题标引和命名实体的抽取

从表2可知,目前报纸文献的自动标引系统设计主要采用基于多种词表和标引源权重方案的关键词抽取标引,是一种自由标引,适当利用后控制词表进行主题规范;归类主要基于词表兼容互换原理,实现以词(串)定类;各种命名实体的抽取也是以名称词典为基础,辅以规则。由此可见,报纸文献的内容加工对各种词典、词表、类表等组成的知识组织系统依赖性很大。

4  报纸文献内容深加工的主要技术问题

4.1  缺乏针对性、具体化的报纸文献加工规范

1)报纸和报纸文献著录规则

报纸是一种连续性出版物,每篇报纸文献又是一个独立的著录标引对象。虽然我国有专门针对报纸期刊这类连续出版物的著录标准——《连续性资源著录规则》(GB/T 3792.3-2009),但在国家标准和相关论著中对于报纸的著录标引论及甚少,大多以期刊为例进行解释说明。实际上,报纸与期刊很不相同,不能混为一谈。比如,同一种报纸存在不同地区版本、不同语种版本、不同时间版本。因此,应该有针对报纸文献加工的专门标准和规范。

1988年,IFLA发布了一份《国际报纸编目指南》,用于规范报纸编目,但这只是一份指导性文件,并未形成报纸编目的具体规则和MARC编码标准[16]。国内,陈源蒸[17-18]、石鸿飞[19]等学者也对报纸著录中的问题进行过探讨,基本解决了报纸整体著录的问题。但时至今日图书馆和文献数据库服务商对于报纸文献的著录仍未达成共识,报纸文献数据库著录字段的设计和检索点的提供各不相同。

2)报纸文献标引规范

报纸文献的标引是其内容深加工的主要形式,尤其是报纸的深度标引更是挖掘报纸文献价值,形成信息产品的主要手段。但目前缺乏针对报纸文献的标引方案和标引规则,所依据的还是通用的、简单粗略的文献主题标引规范[20]。因此,无论是分类标引还是主题标引,受控标引还是自由标引,手工标引还是自动标引都应从便于检索、充分发挥报纸文献价值着手,针对各种性质、各种专业领域的报纸文献制订具体的标引规则和标引方案。如不同实体对象(人物、地区、机构、会议等)、不同主题(政治文献、社会新闻、经济文献、文化事业和文化活动、文艺作品、体育新闻、科技文献)、不同体裁(新闻消息、报告)、不同信息类型(广告、图片)等等,都应规定出必须标引的内容和不必标引的内容,规定出标引深度和标引专指度等,这样才能保证报纸文献价值的最大化开发和利用。

4.2  缺乏统一公认、更新及时的报纸文献知识组织工具

各种分类表、主题词表、术语表等知识组织工具在文献内容加工组织和开发利用中具有重要的支撑作用。但目前,针对报纸文献的各种词表存在编制困难、更新滞后、难以统一普及、缺乏互操作性等一系列问题。

1)分类表

在《中文新闻信息分类与代码》标准发布之前,报纸文献的分类体系一直是各自为政,比如知网《中国重要报纸全文数据库》先是采用自编的三级类目体系,包括10大专辑、168个专题、近3600个细目,后又改用《中图法》类号标注[3];而《全国报刊索引》数据库则以《资料法》作为分类依据;各大报系又有适应本报内容的自编分类体系[21],缺乏针对新闻信息特点的专用统一的分类体系。2003年科技部启动《中文新闻信息技术标准》的国家科技攻关项目,形成了新闻信息分类标准——《中文新闻信息分类与代码》,并于20065月付诸实施。该标准把政治、经济、文化三大部类作为一级类目划分的基础,采用层次编码法,主表从粗到细,划分出23个一级类目、315个二级类目、5683个细目,类目总数达到9314个、类目层级达到5级,同时附加了6个通用复分表和11个专类复分表[22]。《中文新闻信息分类与代码》国家标准的颁行推动了报纸文献分类组织的统一,但限于人力、分类体系转换成本和效率等诸多原因,普及度和采用率并不高。

2)主题词表

报纸文献涉及的主题、体裁甚广,并且不断有新主题、新事物涌现,很难用一部通用的主题词表来覆盖。《全国报刊索引》以综合型《中国分类主题词表》作为其主题标引的受控依据;新华社则专门编制了用于存储和检索新闻资料的专业叙词表——《新闻叙词表》,收录正式主题词8603条,非正式主题词1201条,学科范围涉及国内外政治、军事、外交、文化、科技及社会生活各个方面[23]。但总体来说,由于报纸文献主题标引规模较小,即使标引也以自由标引为主,因此,适用于报纸文献的主题词表编制和应用研究甚少。

除了分类表和主题词表外,因为报纸文献中有大量的新闻报道,其中的人名、国家地区、事件名、机构名、产品名等等命名实体都具有一定的检索意义和参考价值。为了对这些命名实体进行抽取和规范控制,还需要名称权威档等知识组织系统的支撑。

4.3  缺乏特色性、高增值的报纸文献内容深加工方式

从目前报纸文献内容加工的方式来看,仍以传统文献著录和标引,形成指示性文献检索线索为主,或是人工依赖程度很大的剪报产品,内容深加工形式单一。

报纸文献涉及范围广泛,既有新闻报道类的消息型信息,也有资料型信息,还有知识型信息;报纸文献的受众面广,用户特点和用户需求各异。因此,完全可在及时新颖且多为第一手资料的报纸文献基础上形成针对性、特色性、高增值的各种信息产品。如:

1)专题库。按照各种实体、具体事件、具体行业、具体领域整合多种报纸上一定时间段内的各种相关文献,形成各种专题数据库,提供给不同用户。

2)知识库。从抽取各种事实性、数据性的报纸资料中抽取事实、数据、实例等形成知识库,即事实数据库产品。

3)参考咨询库。专题库和知识库还只是基于报纸文献一手资料的采集、选择和撷取的加工,而在这些分类别、序化的聚合信息基础上,辅以数据挖掘和专家智慧,则可以形成研究性、预测性的市场调查报告、行情分析、趋势预测等高增值的信息产品,使公开的报纸文献成为重要的竞争情报信息源。

5  报纸文献内容深加工的主要趋向

无论是旧报纸还是现行报纸,单纯的数字化是远远不够的,必须实现报纸文献内容的深加工,形成增值信息产品。目前学界、业界对于网络新闻的组织、挖掘探索越来越多,虽然网络新闻并不等同于报纸文献,但将在网络信息挖掘、图书期刊论文资料等领域内容加工的方法和技术移植到报纸文献内容加工领域,并结合报纸文献的特点形成针对报纸文献内容加工的专门方法是值得尝试的。具体如下:

1)由各自为政的分类索引向基于新闻分类标准,整合报纸信息资源方向发展

分类索引是报纸文献内容组织最主要的传统方式,但由于缺乏统一的分类体系,导致各个报系和文献数据库之间分类组织互操作的障碍,更遑论进行资源整合。现在作为国家标准的《中文新闻信息分类与代码》分类表已经颁行,但让各单位立即摒弃原有的分类体系却不可行,何况这个国家标准的适用性还需要进一步的验证。因此,从资源整合的角度出发,可考虑在沿用原有分类体系的基础上,将其与标准分类表之间进行映射转换,通过分类表的互操作来实现资源整合。

2)由简单主题标引向各种实体抽取方向发展

实体标引在报纸文献标引中是有历史的,如《解放军报》曾经对人物及其职务进行过标引,但由于文献数量激增、人工标引成本大,才不得不取消[24]。而各种命名实体的抽取和标注对于报纸文献检索、建立文献关联、形成专题产品都具有重要意义。因此,在计算语言学和信息组织智能化不断发展的前提下,报纸文献的主题标引还需强化,并且要进行多元、多角度、全方位的深度标引。

3)由传统剪报向个性化、专题化信息产品方向发展

剪报是在报纸文献基础上形成的一种增值性信息产品,传统的“剪刀加浆糊”的工作方式已经不能适应快速精准的现代信息需求。在报纸文献有序组织、深度揭示的基础上,对用户信息需求进行细化,实现报纸文献信息的重组和创新,从而形成个性化、专题化的剪报产品。如上海图书馆在原有剪报业务基础上,尝试为一些决策机关提供个性化舆情剪报服务,譬如为政法机构定制的《反腐倡廉每周剪报》、为城市管理部门提供的《城乡建设与交通每日舆情摘报》等等[25]。

4)由传统文献组织向内容挖掘方向发展

报纸文献的内容加工不能局限在为提供检索服务的信息序化层面,而应向内容挖掘层面进行深加工。报纸文献的内容挖掘既包括单篇文献中的主题揭示、各种命名实体的抽取和语义关联、观点挖掘等;还包括集合文献的专题聚类、热点追踪、观点导向分析、新闻过滤、舆情预警等等,真正发挥报纸文献的喉舌、参谋作用。

6  结语

随着数字出版的普及和多媒体的广泛应用,报纸文献将突破传统的文本、图片,融合音频、视频等富媒体信息。报纸文献加工也应从报纸加工转向内容加工,向着深层次、自动化、产品化的方向推进,真正发挥其参考价值。

 

 


参考文献

1  张琪玉报纸文献是一种极为丰富而未被充分开发的信息源——关于发展报纸文献索引和数据库的思考[J图书馆杂志, 1999(2):7-8.

2  王智琦,李秋实基于CSSCI不同类型文献的发展趋势定量研究[J图书馆, 2008(3):38-40,68.

3  中国知网中国重要报纸全文数据库[OL2011-06-11 http://acad.cnki.net/Kns55/brief /result.aspx?dbPrefix=CCND.

4  方正中国报纸资源全文数据库[OL2011-06-11 http://www.apabi.cn/product.shtml.

5  VIP维普网中国科技经济新闻数据库[OL2011-06-11 http://www.cqvip.com/productor/pro_news.shtml.

6  深圳巨灵中国财经报刊数据库[OL2011-06-11 http://www.docin.com/p-71643920.html.

7  中华人民共和国新闻出版总署. 2009年全国新闻出版业基本情况[R/OL. (2010-09-07) 2011-06-11 http://www.gapp.gov.cn/cms/html/21/493/201009/702538.html.

8  葛永庆开发报纸文献的重要手段和有效途径——兼谈《申报索引》的编纂出版[J.中国索引,2008(2):2-3.

9  郁福红浅析深圳图书馆剪报服务的成功之道[J图书馆理论与实践,2006(2):120-121.

10  林岫图书馆剪报服务的思考[J图书馆界,2011(2):24-27.

11  宋明亮报纸文献机助自由标引研究及对汉语后控制词表动态维护的思考——《解放军报》模拟检索系统设计实验报告[D中国人民解放军空军政治学院硕士论文,1994.

12  辛乘胜人民日报新闻文献自动标引系统的设计与实现[J中国传媒科技,1997(3):17-19

13  李素建人民日报标引系统[OL. (2002-11-18) 2011-06-12 http://www.icl.pku.edu.cn/member/ lisujian/papers/人民日报标引系统intro.pdf.

14  查贵庭,侯汉清基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验[J情报学报,2002,21(3):273-277.

15  马金林《申报》全文数据库的自动标引[J信息系统工程,2009(11):39-40.

16   Hana Komorous, Robert Harriman. International Guidelines for the Cataloguing of NewspapersEB/OL. (1988-07-01) 2011-06-11 www.ifla.org/VII/s39/broch/intguide.pdf.

17  源蒸,赵淑珍,宛莉编制中文报纸机读目录的几个问题(上),国家图书馆学刊,2000(4):53-60.

18  源蒸,赵淑珍,宛莉编制中文报纸机读目录的几个问题(下),国家图书馆学刊,2001(1):25-31.

19  石鸿飞浅谈中文报纸著录中常见的几个问题[J图书馆界,2003(4):27-28.

20  许斌关于开发报纸文献索引及数据库的思考[J图书馆学研究,2005(2):41-42.

21  吕安妮. 23家主流媒体分类标准大调查[J中国传媒科技,2004(10):19-23.

22  中文新闻信息分类与代码(GB/T20093-2006)[S北京:中国标准出版社,2006

23  李润渊,李鸿恩二十世纪国内外有较大影响的主题词表[EB/OL. (2009-08-14) 2011-06-12. http://www.dha.ac.cn/0249/index.htm

24  邵晓璐《解放军报》数据库系统的标引特色与检索策略[J军事记者,2009(5):61-62.

25  面向决策的报纸舆情信息收集与分析——以上海图书馆的实践为例[J情报杂志,2010,29(4):181-184.

 

薛春香  南京理工大学管理学院副教授。

 

 



[*]本文系教育部人文社会科学研究青年基金项目“电子报纸内容深加工研究”(09YJC870014)、江苏省社会科学基金青年项目“数字报纸的自动标引研究”(09TQC011)的研究成果之一。本文系教育部人文社会科学研究青年基金项目“电子报纸内容深加工研究”(09YJC870014)、江苏省社会科学基金青年项目“数字报纸的自动标引研究”(09TQC011)的研究成果之一。