书后主题索引的自动编制初探
潘雪莲 钱丹雅 侯汉清
(南京农业大学信息管理系 210095)
摘 要 针对现有索引软件一般只能进行字面标引而不能实现概念标引的不足,提出了一个基于概念标引的书后主题索引自动编制方案,即将图书章节细化后利用基于单篇文献的自动标引系统进行图书主题标引。通过三种标引系统对实验语料的标引结果统计来选择标引系统;其次通过对篇章结构分析,提出基于标题符号的标引源自动识别方案,同时给各标引源设定权重,提出主题词标引流程;最后还探讨了标引单元确定以及索引地址设计。实验表明,基于N-gram方法的书后主题索引的自动编制方法是可行的。
关键词 书后索引 主题索引 自动标引 N-gram方法
1 引言
1.1 国内书后索引的编制现状
书后索引又称专著索引、卷末索引,是出版物中学术参考资料的重要组成部分。主题索引又是书后索引的主体。主题索引是最完全、最实用,因而也是最应该提倡的。美国学者H�宾尼(Binney)有过“有价值之书籍而无索引,则其为用,消失一半。”的精辟论述。侯汉清曾说:“缺少书后索引的图书实际上是不完整的。”[1]很多学者早在几十年前就开始呼吁普及书后索引,但国内书后索引编制现状并没有随着时代进步、技术发展而改善。
1994年,纪晓萍[2]对国内学者自著书书后索引编制情况进行调查统计,编有书后索引的图书占所查图书总数的1�2%。2004年,周柏康[3]对国内学者自著书编制书后索引情况进行调查,比例为2�39%。此外,两位都还发现在这为数不多的书后索引中,主题索引更是微乎其微,比例分别为8�7%、20%,编制书后主题索引的图书可谓凤毛麟角。两次调查时间相隔十年,然而数据相差甚微,在一定程度上说明了中文图书书后索引缺失是普遍而持续存在的。
书后索引特别是主题索引对服务读者的重要作用与国内图书书后索引的严重缺失形成鲜明对比,原因有很多,例如,传统文化习惯的因素、学术行为的规范问题、市场经济的发展、现代技术的发展等等[4],其中很重要的一个原因就是技术不成熟,缺乏完善的索引软件,形成书后索引编制难、书后主题索引编制难上加难的局面。
1.2 目前主题索引编制存在的问题
早在1992年,国内已经有了Macrex、Cindex、IndexAid2、Indexer's、Assistant、Indexit、INDEXX、IN>Sort/M'ac、In>sort/DOS、NIcindex、wIndex等10种较稳定和较流行的专用微机辅助标引软件。此外,还有Word Perfect、Microsoft Word等含有索引编辑功能的文字处理软件[5]。由北京长城云天科技公司研制的“索引之星”是国内较为完善的编制书刊索引和目录的专业软件,现已升级到2�0版本。这些索引软件都需要人工辅助标引,但这些软件的出现已大大节约了编制索引的成本与时间。
机编索引技术主要包括标引与款目生成、编辑整理与索引生成两大部分,其中款目生成、编辑整理与索引生成的自动化技术已基本成熟,但标引自动化技术实现仍然有难度,索引软件目前仍然停留在自动抽取关键词的水平。笔者曾用Microsoft Word的索引软件编制《文献分类法主题法导论》一书的人名索引和主题索引,人名索引准确率差强人意,但主题索引质量却很差,不管关键词在该处是具体论述还捎带提及,都无一遗漏地标引出来。有些词出现频率很高,如“分类标引”这个词在整本书中出现的频率为126次,MicrosoftWord索引软件标引出53次。据人工判断识别,只有8处是对该主题的具体论述,由此可见索引词冗余度之大。正如张琪玉所指出的“图书索引要求详细而有选择地并相当专指地标引图书的局部主题和主题因素,但又不允许像全文检索那样用所有关键词无遗漏地标引其全部内容”,这是书后主题索引的编制难点,也是现有索引软件尚不能实现的功能[6]。
1.3 书后主题索引自动编制的可行性
索引的自动编制要解决的首要问题就是索引词的确定,即自动标引的实现。自动分词、自动标引研究已久,国内外已开发出的一些分词及标引系统,如海量科技开发的海量分词系统、《全国报刊索引》数据库自动标引与自动系统等。这些系统基本上可以实现对报纸、期刊的自动分词和标引。顾燕萍等[7]的利用《全国报刊索引》数据库自动标引与自动分类系统,进行了图书的自动标引和自动分类的实验。该实验通过对题名、内容提要等四个标引源设定值后分别进行单独标引和组合标引,结果证明该系统对图书整体标引与分类具有一定适用性。
一本专著一般由若干章节组成,每一章节论述一个或几个主题,在一定程度上,我们可以把一本图书看成是由十几篇、几十篇甚至上百篇相互关联的“短文”组成,即我们可以将一本专著按章节分解为若干篇“短文”,然后再用目前报刊自动标引系统对这些“短文”进行标引,进而实现对整本专著的自动标引。
报纸、期刊的主题标引是书目单元标引,即对文献的整体标引。书后索引是情报单元标引,也称为知识单元标引,即对文献内的每一情报项目(即知识项)进行标引。两者之间还存在较大的区别,书后索引还存在标引单元的选择、索引地址设置等问题。
本文选取经济类、农业类专著各一本作为实验语料,从自动标引的技术实现、标引单位的选择及索引地址的设置等方面来讨论书后主题索引自动编制的实现技术。
2 书后主题索引的自动标引系统的测评与筛选
2.1 标引系统的测评与筛选
天津海量科技发展有限公司开发的中文分词系统是运用词典、词性标注、统计方法和词形学规则设计而成的分词系统。通过对该系统可以获取处理文献的关键词、分词词性、语义指纹。除系统自带的常用词词典外,还提供给用户加载专业词典的接口。在系统自带分词词典的基础上,笔者加载1�5MB的经济类专业词典后对实验语料《中国农村金融制度研究》的进行切分统计,系统推荐的关键词统计见表1。
《全国报刊索引》数据库自动标引分类系统是通过建立知识库、确定信息标引源和加权方案、采用词典切分结合“统计分析法”的标引方法、运用“词面相似度”算法实现主题词串的归类而建立起来的系统。该系统是针对期刊报纸的自动标引和自动分类系统,自动标引前需将语料按题名、文摘、分类号、正文、备注等几个字段分别输入数据库,对不同字段,用户可设定不同权值[8]。使用该系统标引图书实验数据时,将标引单元节的小标题设为题名,节首段为文摘,其余部分为正文,三部分的权值分别为3,2,1(注:系统设定权值为整数),系统标引结果见表1。
本文所采用的N-gram方法是基于与文章主题越相关的词出现的频率越高、长词的专指性高于短词、章节标题反映主题能力大于首段词的反映主题能力大于正文词反映主题能力的假设。它可以在一定程度上实现了概念标引。实验系统是根据张雪英的基于单篇文献的Gram�Keyword分词与标引方法[9]修改而来的。Chien提出的基于PAT�tree的关键词自动抽取方法以及后来Tseng提出的更为简单有效的关键词抽取方法证明了基于N�gram频率统计方法的可行性及优越性[10-11]。N�gram方法关键词筛选算法除了考虑词频,还考虑了词长、词所处位置、标引单元长度。标引深度通过阈值设定来调整。
抽取《中国农村金融制度研究》一书中的1�1~1�5、2�3节、9�2节作为实验语料,用上述三种方法及人工分别对其进行。假定人工标引完全正确,将系统自动标引结果与人工标引词进行比较,词形相同或意义相同、相近的词均视为标引正确。将用标全率、标准率、F1调和值这三个指标来评测三个标引系统。标全率是系统标引正确的词的数量与人工标引的词的数量的比值,反映对文献主题覆盖程度。标准率是系统标引正确的词数量与系统标引词总数的比值,反映标引的正确率。在实际应用中,如果标准率高,得到的标全率就可能低,标全率和标准率反映标引质量的两个方面,两者必须综合考虑,不可偏废。因此采用F1调和值作为评估指标,F1=(2*标准率*标全率)/(标准率+标全率)。测试结果如表1所示。
表1 海量分词系统、《全国报刊索引》数据库自动标引系统、N�gram法推荐标引词准确度评测
标引方 | 海量分词系统 | 《全国报刊索引》 数据库自动标引系统 | N�gram方法 |
节号 | 标全率 | 标准率 | F1 | 标全率 | 标准率 | F1 | 标全率 | 标准率 | F1 |
1.1 | 50% | 25% | 33.3% | 100% | 50% | 66.7% | 100% | 50% | 66.7% |
1.2 | 0 | 0 | / | 50% | 50% | 50% | 100% | 100% | 100% |
1.3 | 40% | 33.3% | 36.4% | 20% | 16.7% | 18.2% | 80% | 66.7% | 72.7% |
1.4 | 0 | 0 | / | 40% | 33.3% | 36.4% | 60% | 60% | 60% |
1.5 | 50% | 50% | 50% | 100% | 100% | 100% | 50% | 50% | 50% |
2.3 | 0 | 0 | / | 33.3% | 33.3% | 33.3% | 66.7% | 66.7% | 66.7% |
9.2 | 20% | 20% | 20% | 80% | 80% | 80% | 100% | 80% | 88.9% |
总计 | 16.7% | 15.4% | 16% | 54.2% | 48.1% | 51% | 75% | 69.2% | 71.9% |
表1数据表明,N�gram方法最佳,三种指标均优于海量分词系统与《全国报刊索引》数据库自动标引与自动分类系统。《全国报刊索引》数据库自动标引与自动分类系统的F1调和值低于N�gram方法,原因为该系统是针对报刊的标引系统。它对于识别图书章节内的一些专深概念存在一定的不足,因为表达这些专深概念的关键词往往未被系统的知识库收录,所以这些词就无法被标引出来。但该系统标引速度快于N�gram方法。
N�gram方法性能最好,一是因为该方法是基于N�gram频率统计的,不需要进行分词操作,可以抽取任意长度的关键词,不存在未登录词识别问题;二是本实验是基于短词错误率为0的假设;三是影响关键词的因素考虑较多,除了考虑词频和词位,还考虑了词长、标引单元的长度这两个因素,关键词权值设计更为科学合理。
2.2 基于N�gram方法的标引流程
本实验系统的标引算法与标引流程为:
(1) 利用标点符号将句子划分开来。标点符号是天然的分割标识,并且这样的句子划分不存在歧义划分问题。
(2) 词语生成。可以设定生成关键词长度的最大值为n,本系统设定为16个字节,即8个汉字。虽然中文关键词的长度是不定的,但存在一定的范围限制。n的大小影响标引词的先组度。例如:当n=12时,“农村金融制度”就可以直接标引出来;当n=8时,上面那个概念就只能标引为“农村金融”与“金融制度”。
(3) 加载停用词表将生成的词语中无承载意义或检索意义不大的词除去。停用词表中的词主要是感叹词、副词、介词、代词、形容词等无承载意义的停用词,如:“此外”、“此时”、“当初”等。还有一种是分词不正确、语义不完整或者不明确的字符串,如:“的角度”、“反映出”等。
(4) fl值计算和合并相同主题词。根据fl=log2(词频)*log2(词长)*位置权值(注:标题词的fl=词频*log2(词长)*位置权值)计算出每一个词的fl值。合并相同主题词并累加权值,词的权值和记作fs。
(5) 同义词处理。利用同义词表对一些非父子串关系的同义词进行合并,例如:“农村信用社”与“农村信用合作社”、“番茄”与“西红柿”等。选择同义词组中出现频次较高的那一个词作为关键词,将同义词组的fs值累加值作为该词的fs值。
(6) 关键词筛选。将关键词按fs非升序排列,将字符串的fs值与其相关K个汉字字符的父串(或者子串)比较,若父串(或子串)的fs值小于等于该字符串则删除。反之,则保留。参数K可根据需要设定,用来控制文献的标引深度和标引专指度,本实验K取4。
(7) 标引词确定。根据fa=fslog2(标引单元长度)计算出关键词的fa值,以此来消除标引单元长度对词频的影响。可以通过设定阈值来确定标引词个数,进而控制标引深度。
2.3 标引结果测试
抽取实验语料《中国农村金融制度研究》一书中的六章,计50小节,用N�gram方法进行标引,将标引结果与人工标引进行比较,系统标引结果见表2。
表2 标引结果统计
章节
标引词条数
误标词条数
人工标引词条数
标全率
标准率
F1值
第1章
第2章
第3章
第4章
第6章
第8章
总 计
19
32
40
19
19
42
171
6
15
15
7
7
13
63
17
24
32
14
19
36
142
76.5%
70.8%
71.4%
85.7%
57.9%
83.3%
76.1%
68.4%
53.1%
62.5%
63.2%
57.9%
71.4%
63.2%
72.2%
60.7%
66.7%
72.8%
57.9%
76.9%
69.1%
表2显示,虽然N�gram方法不存在未登录词的识别问题,系统误标词数量仍然可观。误标词主要由两类词组成,一类是由于阈值设定较小而混入标引词行列的跟主题不相关的词,另一类是主题词的子串且fa值高于主题词的关键词,例如:主题概念为“金融企业”的章节,可能会标引成“金融”与“企业”两个词。误标的词中,前者占很大比例,如果能确定适当的阈值,标引效果就会有很大的改善。
3 书后主题索引自动编制的技术问题
3.1 标引单元及地址的设定
3.1.1 标引单元的选择
标引单元的选择直接影响到标引质量,进而影响主题索引的编制效果。如果标引单元过大,那么不可避免地造成标引过粗,一些主题漏标。相反如果标引单元过小,因为文章相邻的小节往往论述相同主题,也就是相同主题多次标引,带来标引过细、重复标引的问题,这同样会给编制及使用索引带来不便。此外,标引单元过短,特别是自然科学类专著,主题词出现频率往往远低于常用词,以致主题词权值和往往低于阈值而无法被标引出来,会影响标引准确率。
实验语料《甜瓜枯萎病病原学及防治技术研究》一书中的第四章的最后一级小节长度均在500字之内,实验系统标引出的28个索引词中就有“采用”、“试验”等检索意义不大的词,误标率达21�4%;而实验系统对实验语料《中国农村金融制度研究》一书中的六章进行标引,82个标引词中只有“关系”、“社会”等六个检索意义不大的词,误标率为7�3%。用停用词表可过滤掉一部分误标词,以提高标引准确度。
在具体标引时,可从最小章节开始标引,如果太短,例如少于400字,则选择其上一级进行标引,如上一级章节还是比较小,则选择再上一级章节作为标引单元。
3.1.2 索引地址的设置
图书的组织形式大体可以分为按章节和按款目编号两种,一般图书都采用章节形式来组织全书,条规、摘要、引语、案例报告等图书的正文则往往按款目编号组织。
考虑到主题索引词的标引是以章以下的节(或小节)为标引单元,即以一个完整的主题内容单位来进行标引的,所以本系统考虑采用章节号作为索引地址。为了方便读者查找,配备章节号地址的同时还注明该章节的起始页码。相邻三个或三个以上章节号、页码则进行合并,只标起止地址,以节约篇幅,如:4.2.1~4.2.4。表3是实验语料索引地址设计样式:
表3 索引地址设计模式
主题索引词 | 索引地址(章节号) | 索引地址(起始页码) |
摩根文化 | 8.3.3 | 93 |
制度经济学 | 2.1.2,3.3.1 | 23,38 |
对于不是采用“x.x.x”类型的标题符号的图书,而是采用诸如“第三章第二节四”,这样的标题符号,将其简化为“3.2.4”作为索引出处,并将对应格式的转化写入索引前言。
3.2 标引源加权问题
标引源的确立主要考虑到人们的撰写习惯,以及文章各部分反映其内容主题的重要程度等方面[12]。赵妍等[13]对中文期刊论文标引信息源主题表达能力进行了抽样调查和统计分析,统计数据表明,摘要、题名、首尾段、参考文献等8个标引源都有较好的主题表达能力,主题表达能力依次降低。图书的章节结构与期刊论文组成还是存在差异的。图书的章节一般由标题、首段、正文、尾段组成。如果标引单元不够长,可选用该标引单元的上一级单元作为标引单元,这样就存在多级标题,一般不存在摘要、参考文献。
一般来说,图书的节标题都有提纲挈领之功用,较之于正文里其他文字更为概括,更能反映该节内容主题。章节的首尾段所含的信息量往往高于中间段落,首段往往概述所要讨论的问题,而尾段则会对该章节进行总结,考虑到尾段的识别难度,本系统只考虑首段。对于出现“结论”、“综上所述”等提示词的段落,权值可大幅增加。除去以上包含主题信息量较为密集的标引源外,正文也是文章主题内容的承载者。以往期刊论文的自动标引为了提高处理速度一般将正文排除在外,同时带来了降低标全率和标准率的可能性。本文将正文部分也作为标引源,即进行全文标引,对标引源分别给予权重以区别其反映主题能力不同,本系统为不同部位的词设计权值见表4。
表4 章节词位置权值表
部位 | 位置权值 | 部位 | 位置权值 |
小节标题 | 3 | 首段 | 1.4 |
上级标题 | 2.5 | 提示词段落 | 1.2 |
上上级标题 | 2 | 正文 | 1 |
机器在录入文本时根据标题符号及其他一些特征识别标题、首尾段等文献部位,并且分别给这些部位特定的标识,在机器内部建立位置标识表
进行分词时就给不同部位的词以特定的位置标识,权值和计算的时候,将位置标识换成位置权值即可。
3.3 标引源自动识别
为了便于读者很快获得文章主题内容,作者(或编辑)会在位置、格式、字体、字号等方面让标题与其他文字区分开来,例如标题往往采用黑体以示区别,标题的段前段后行距加大等等。此外,因为标题要求短小精悍醒目,即标题一般是独立成行,以回车结束。
此外,标题文字前面会有固定的一些标题符号,将这些标题符号收集归纳,建立如下标题函数:Title={第一章,第二章,...,第一节,第二节,...,1.1,1.2,...,1.1.1,1.1.2,...},将Title划分为若干个子集titlei(i=1,2,3...),如title1={第一章,第二章,第三章,...},title2={第一部分,第二部分,第三部分...},title3={第1章,第2章,第3章,...},title4={第一节,第二节,第三节,...},title5={1,2,3,...},title6={1�1,1�2,1�3,���,2�1,2�2,2�3,���},title7={1�1�1,1�1�2,1�1�3,���,1�2�1,1�2�2,���},title8={一,二,三,���},等等。其中每一个子集称作Title的一个型,在同一个型中的标题符号称为同型标题符号。同型标题符号后面的标题文字将设置相同的权重,非同型标题符号一般可根据标题字体的不同来识别。我们将标题带有标题符号、字号随标题级别不同而不同、且单独成行的文本称为标准文本。对于非标准文本要进行一些预处理使之成为标准文本才能实现自动识别[14]。
计算机将待处理的标准文本与标题函数匹配,如果匹配成功,指针后移,直到遇到回车符,如果回车符之前没有句号、问号等标记句子结束的标点符号,那么就可以认定是标题。如果回车之前有句号、问号等标点符号,那么就给标题标识与回车之间存在的字符数设定阈值,如80个字节,如果小于这个阈值的话就可认为是标题,否则不认为是标题。同型标题将给予相同的权值,非同型标题根据字号来区别。首段则通过回车符来识别。
4 结语
利用上述的主题索引自动编制技术对《中国农村金融制度研究》一书的前三章编制索引,用N-gram方法标引出来的词作为MicrosoftWord索引软件编制这三章内容的索引词,将两者地址均转化为章节号。总共40个标引词,N-gram方法给出67个地址,Microsoft Word索引软件给出180个地址出处,冗余度高达168�7%。
本文尝试将图书按章节分解后用N-gram方法进行全文标引,综合考虑词频、词长、词位、标引单元长度等因素对词的重要性的影响。实验测试结果在一定程度上证明该方法的可行性及优越性。但基于专著的多样性、分词与标引的复杂性,本项实验还存在如下问题:
(1)本实验系统还没有完全成形,分词与词频统计由机器实现,关键词筛选、位置加权等部分由人工模拟实现,且该实验系统尚无法实现多级标引。这有待于实验系统的进一步的完善。
(2)由于不同作者写作风格以及学科专业的差异,专著格式会有所不同,对于标引源权重的设定有待于进一步的统计与更大范围语料的测评。
(3)限于时间,本次实验测试的数据较少,今后应当扩大测试规模与实验范围。
(4)本实验系统将标引单元长度考虑到优选关键词的算法中,是为了消除标引单元长度对词频的影响,然后通过阈值来控制标引深度,这样会有5000字标引单元与500字的标引单元获得相同或相当的标引词数量,标引深度不均匀。同时,对于阈值的确定也还存在一定的问题。
参考文献
1 侯汉清.索引法教程�南京农业大学出版社,1993
2 纪晓萍.我国书后索引的现状调查与分析�图书馆建设,1994(5)
3 周柏康.对书后索引现状的一次调查�中国索引,2004(4)
4 周柏康.关于书后索引现状的几点思考�中国索引,2005(2)
5 戴维民.国外机编索引发展概述�中国图书馆学报,1994(1)
6 张琪玉.图书索引软件的功能要求与编制难题�中国索引,2004(3)
7 顾燕萍,王晓红等.中文图书自动标引与自动分类实验�网络时代的信息组织――第四次全国情报检索语言发展方向研讨会文集�北京:北京图书馆出版社,2006.2
8 侯汉清,薛鹏军�基于知识库的网页自动标引和自动分类系统�大学图书馆学报,2004(1)
9 张雪英�粗糙集理论的文本自动分类研究�博士论文,2005.5
10 Chien,L.F.Pat-tree-based keyword extraction for Chinese informationretrieval.Proceedings of the 20th Annual international ACM SIGIR Conference onResearch and Development in Information Retrieval.USA:ACM Press,1997.50-58
11 Tseng,Y.H.Automatic thesaurus generation for Chinese documents.Journalof the American Society for Information Science andTechnology.2002,53(13):1130-1138
12 苏新宁,邹晓明�文献信息自动标引研究�现代图书情报技术,2000(1)
13 赵妍,侯汉清等�中文期刊论文自动标引加权设计研究�新世纪图书馆,2004(1)
14 单永明�汉语文本形式结构分析及其标引算法�中文信息学报,2002(2)
附录主题索引样例
《中国农村金融制度研究》一书主题索引(片段)
(说明:索引款目形式为:主题词,章节号,章节起始页码。例如,公有金融,3�4�1(40),其中3�4�1为章节出处,起始页为第40页)
G
公有金融,3�4�1(40)
国家控制金融,3�4�2(41)
国有金融,3�4�2(41)
H
花旗银行,8�3�2(93)
J
交易费用,1�3(15)
金融产权,3�4�1(40)
金融监管,3�3�4(40)
金融交易,1�3(15),2�2�1(24)
金融企业制度,2�2�1(24)
金融文化,8�1�1-8�1�2(88)
,8�5�1(95)
金融压制,1�3(15)
金融制度变迁,3�1�1(33)
M
民间信用活动,6�1�1(69)
摩根文化,8�3�3(93)
N
农村信用社,2�4�3(31),6�1�1(69),6�4(76)
Q
企业文化,8�1�1(88),8�3�1(93),8�5�2(96)
R
融资需求,6�3�2(75)
X
信用风险,8�5�5(97)
信用文化,8�2�2(92)
Z
政府信用,8�5�4(96)
制度安排,1�2(14),4�2(44),8�1�1(88)
制度经济学,2�1�2(23),3�3�1(38)
潘雪莲 南京农业大学信息管理与信息系统专业本科生。
侯汉清 南京农业大学信息管理系教授,中国索引学会副理事长。