年鉴索引编制刍议
——以江苏年鉴索引为例
汪 旸 何 琳
(南京农业大学信息科技学院 210095)
摘 要 目前年鉴索引编制存在着主要依靠手工编制和手工排序、只标引一级标目、标目大多只对应一个地址等问题,针对这些问题,本文基于年鉴索引编制的实践,总结、介绍了以WORD、EXCEL软件作为辅助工具的江苏年鉴(2011年)索引的编制方法。对于机器标引和手工标引方案的选择、文档格式转换、索引类型的选择、标引深度的控制、文本的预处理(分页和分栏)、多级标目的拟定、标目的处理和规范,以及文献索引的编制等问题,都在文中进行了较为详细的分析和讨论。
关键词 年鉴索引 索引软件 WORD EXCEL 标引
年鉴以一年内重要的时事、文献和统计资料为记述对象,提供详尽的事实、数据和统计数字。作为一种资料密集型的工具书,它按年度出版,信息主要来源于当年的政府出版物、国家重要报刊和统计部门的数据,具有权威性、及时性和连续性特点。能够全面、系统、准确地反映某年度政治、经济、科技、文化及社会发展概况[1]。除纯文字信息外,年鉴往往还包含大量图片和统计图表。因此,在信息社会,年鉴是一种重要的信息来源。
作为一种工具书,索引是其必不可少的组成部分。近几年各地纷纷为年鉴配置各种索引[2]。旨在为读者提供与目录不同的、简便快捷的检索途径[3,4]。但是,目前在年鉴索引的编制中,存在着以下问题:(1)手工编制,手工排序。(2)缺乏深度,且多只编制一级标目,二级标目极少。(3)一个标目只有一个地址。
笔者最近参加了2011年江苏省年鉴索引的编制工作。本文拟通过总结这次索引编制实践,讨论有关年鉴索引编制的相关技术问题。
1 索引编制方案的选择
1.1 机器编制还是手工编制
年鉴索引编制首先要考虑手工编制还是机器编制的问题。一般有以下几个方案可供选择:
(1)手工录入数据。即直接阅读纸质文稿,然后在机器中手工录入标目并添加地址,最后使用机器排序。这是手工为主,机器为辅的方法。
(2)利用电子文稿,复制原文内容作为标目,然后人工添加地址,最终仍然使用机器排序。这种方案较方案1而言,省去手工录入的麻烦,还不易出错。
(3)使用索引软件对电子文稿进行抽词标引、添加地址和款目拼接,最后机器排序。显然这种方案相较于第二种,又省去了很多繁琐的事务性工作。
我们在编制中采用了第三种方案。可用于索引编制的软件有很多,如索引之星、Macrex、Cindex等[5] 。但考虑到操作的简易度、软件的普及度和价格,我们使用最常见的WORD2003软件来处理电子文稿,进行索引编制。
1.2 文本格式转换
目前书籍排版大多采用方正排版软件的专有格式——PS格式,但是它无法直接用来编制索引,必须要进行文本格式的转换。
第一种方案是将PS直接转换成PDF格式。但是, PDF文档无法进行标引操作,不能进行复制粘贴。
第二种方案是先将PS转换为PDF,再使用PDF转换工具,将PDF格式转换为DOC或TXT格式。网上有很多免费的PDF转换工具,Adobe公司的Acrobat软件也支持这样的转换。但是在实际处理的过程中发现,这些PDF to WORD类的转换工具只能进行少量文本的转换,而年鉴文稿有数百页之多,因而这种转换无法实现。另外这种转换容易丢失数据或造成数据的错误
第三种方案则是直接处理方正排版的bak或fdb文件。这些格式的文件可以直接用记事本打开,然后可将数据复制成WORD文本。
通过上述分析,可以看出,为了便于机编索引软件工作,方案三是最合理的选择,而且质量可靠。但是,这样得到的电子文档没有页码,还需要进行分页处理。
1.3 索引类型的选择
只针对某一年度的年鉴索引属于专书索引[1],通常为它们编制条目索引、人物索引、机构索引,有时还专门编制彩图索引和表格索引等。如果将这些内容分开编制索引,读者在使用索引查找所需内容时,可能要做多次检索,才能找全所需的结果。
江苏年鉴是一种综合性的年鉴,我们决定限于索引篇幅,只编制主题索引和文献索引,对于插图、表格和彩图,根据其内容,统一编入主题索引,在页码地址后添加“(表)”、“(图)”或“(彩图)”的字样,例如:
本科毕业生供需洽谈会,576图
……
财贸、外资工资统计,719表
……
参加亚运会(第十七届),77彩图
这样既方便了读者检索相同主题的内容,也标识了索引标目所表示文本的性质。
1.4 标引深度[6]
图书内容索引的标引深度又称引得深度、索引深度、穷举度[7],它指的是对图书进行周详标引的程度。如果将其量化,即所作索引款目的数量。标引时要对包括条目在内的正文进行内容分析,分析出显性、隐性的主题,也要对次要主题进行分析,从不同角度抽取索引内容,确保一定的标引深度。为了保证年鉴各部分标引的均衡,编制索引时,要大致根据条目内容规定一个适当的“标引深度”,或者规定每页或每个条目(包括专文、图片或表格)大致标引多少索引款目[6]。
标引深度可按如下方法估算。
了解需要编制的索引页数和每页容纳索引款目条数,则
索引款目总条数 = 每页容纳索引款目条数×索引总页数
每页书稿平均索引款目数 = 索引款目总条数÷全书总页数
经商定,计划编制的索引页数约为60页,每页条目数(按照双栏计算)约为90条,则索引中总条目为5400条。又因为年鉴正文总页数为733页,从而计算出每页索引条目应当控制在8条左右。这样就可以控制索引的规模,也能保证全书标引的均衡性。
2 文本的预处理——分页和分栏
上文述及,用于排版的.bak文件转换为word格式,还需要进行人工分页。分页前还需要先对文档版面进行处理,比如缩小字体、行距,对页边距做合理的设置,以保证在计算机处理时插入了索引项后,文档内容所在的页码位置不会发生改变。
年鉴版面通常为A4大小,正文条目内容通常为每页分成三栏或两栏。编制索引时,为了使读者更快地查找到所需的内容,标目必然要精准地指向所在的页码和栏。机编索引的地址如何才能指向某页的某栏呢?这成了一个机编索引一个急需解决的难题。
需要指出的是,此处的分栏并不是指WORD软件的“格式-分栏”功能。WORD软件的基本功能是不支持将页码标注为001a、001b、001c……格式的。所以,对于栏的处理有以下两个方案。
方案一:只对原文进行分页。与原打印文稿进行比对后,在WORD文档中对应原文每页最后一个字符位置的后面插入一个分页符,这样就完成了分页。但这样机器生成的索引地址只有页码,没有栏号,需要标引人员对照原文在页码地址后一一添加栏号(左、中、右)。这虽然不失为一种方法,但是工作量极大,而且容易出错。
方案二:对原文进行分栏。这样虽然在第一次分栏时,需要人工到原文找到分栏的位置,但却减少了其后标引的工作量,因为通过机器生成的索引都会有正确的页码和栏号,不再需要手工添加。因此如果条件允许,应当尽可能采用这种方案。
但是由于WORD本身的基础功能中并不支持前文所提到的个性化的分栏,所以需要利用其他工具或使用某些WORD的高级功能。本文提供一种借助于微软WORD的VBA来实现分栏的方法。
笔者的思路是,先将原文在WORD中按栏分页,把一栏看成为一页,则001a,001b,001c,……在软件中表示为页码1,2,3,……依此类推,最后再做统一的替换。在完成全部索引项标记,并使用软件生成索引后,标目的表示形式为“索引标目,页码数”。此时将索引文档提取出来,对其做批量替换即可。要做这种替换,就要根据其格式特征来进行数据处理。要考虑到以下一种情况:替换“1”会将“10”、“11”等数字中的“1”替换掉。为了避免类似的错误产生,生成不符合笔者本意的结果,故考虑将形为“,数字^p”(“^p”表示换行符)的文本替换为“,对应的栏号^p”。经测试,替换完全正确。
下面具体说明如何替换:
(1)在C盘建立EXCEL文件,文件名为“replace.xls”;
(2)打开上述文件,在A列中依此输入“,1”、“,2”……直到WORD文件的最后一页;
(3)在B列中输入对应的栏号数“,001a”、“,001b”……;
(4)在生成的索引文件中打开VBE,输入代码:
Sub 替换()
Dim i%, j%
Dim WYxls As Object
j = 1000 '此处1000为表格数据最后一行的行数,根据实际情况更改
Set WYxls = CreateObject(“c:\replace.xls”)
For i = 1 To j
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting
With Selection.Find
.Text = WYxls.Sheets(1).Cells(i, 1) & “^p”
.Replacement.Text = WYxls.Sheets(1).Cells(i, 2) & “^p”
.Forward = True
.Wrap = wdFindContinue
End With
Selection.Find.Execute Replace:=wdReplaceAll
Next
Set WYxls = Nothing
End Sub
通过这样的批量替换,索引页码后的栏号也可以正确显示了。这种方法既可以正确标注栏号,又可以减少工作量,是一种简单易行的方法。表1给出了EXCEL中相关栏号的对应关系表的部分样例。
表1 页码对照表
WORD中设定页码 | 年鉴原文页码 |
1 | 001a |
2 | 001b |
3 | 002a |
4 | 002b |
5 | 003a |
6 | 003b |
…… | …… |
113 | 057a |
114 | 057b |
115 | 057c |
116 | 058a |
117 | 058b |
118 | 058c |
…… | …… |
3 标目的选取和标记
3.1 机器标引方法的选择
(1)“标记当前项”和“标记全部”的选择
由于年鉴信息量大,因此一般用于标目的主题应该是在正文有具体叙述的内容。使用WORD进行索引项标记有两个选择——“标记当前项”和“标记全部”。一般来说,索引的内容应该与目次区别开来,避免产生重复。如果只标记当前项的话,可能会导致得到的标目过少,而且还会造成索引标目与年鉴目次重复。而且如果一个标目只对应一个地址的话,这样标引深度是不够的。因此我们选择“标记全部”。但是这种方案也会带来过多的出处,这些出处其内容在原文中可能只是简单提及,没有具体论述。所以我们要在机器标引完成后,人工检查,删除掉不符合要求的标目。为了减少检查的工作量,我们可以先选择“标记当前项”,并将格式设为“粗体”,然后再做一次“标记全部”,如图1所示即为索引标记的界面。
(2)自动标记
WORD软件除了支持对索引项一一标记外,还支持批量自动标记多个索引项。打开WORD,选择插入——引用——索引和目录,右下方就有自动标记的选项,如图2所示。使用这个功能,需要先建立一份WORD文档(双栏格式的表格,即抽词词表),将原文内容和标目的对应关系记录在WORD文档中的表格内。该文档将被作为索引标记文件,如图3所示。
图1 索引标记界面
图2 自动标记界面
自动标记虽然使得标目工作得到简化,但是也存在不足。笔者发现,当用于标记的条目较少时(如20条以下),WORD尚能将索引项全部标记出来,但是一旦索引自动标记文件中的条目过多,软件中会出现较严重的漏标现象。
自动标记还存在其它的一些问题,在此不再赘述。在下文中的文献索引编制部分,笔者将会详细叙述自动标记的完整过程和存在的问题。
3.2 多级标目
在编制索引的过程中,可以选择只做一级标目。一级标目的标引相对简单,但其标目的专指度不够。为了解决这个问题,可以考虑编制多级标目。多级标目的形式一般为:主标目+副标目(或说明语)。该类型的标目是用一个不太专指的词或词组作为主标目,再用一个词或词组作副标目(副标目下还可设置子标目,即三级标目)。这种标目的专指度高、族性检索性能好,但副标目要求规范性,编制稍微复杂。索引副标目的设置,有三个作用:在索引标目下有许多材料,使用副标目能使这些材料分组排列;限定或扩展索引标目的含义;把同一主题概念的不同方面集中起来。
在编写副标目时,应注意以下几点[6]:
(1)副标目应在整个索引中规范统一。
(2)副标目应使用名词或名词性词组。
(3)副标目的表达应当尽可能简洁。
图3 索引自动标记文件
在编制副标目时,通常都会省略主标目所表述过的内容。常见的副标目的格式有以下几种:
(1)使用破折号“——”,这种标引形式表示副标目描述的是主标目某一方面的问题;如:
档案工作,465c
——安全体系,467a
——法制建设,467a
——史料编撰,466c
——文献遗产保护,466b
——信息化,466c
(2)使用“,”,通常这种方法[7]用于表示主标目所指事物的某一特称(种),此外还用于表示地区、时代等。例如:
综合经济
,南京市,591b
,常州市,618a
,淮安市,648b
我们在索引篇幅所限范围内,尽可能地挖掘各条目之间的联系,编制了二级条目,以此来为读者提供更符合阅读习惯的索引方式。另外,为了保持格式的一致,所有副标目一律采用在标目前加破折号的标引形式。
由于时间所限,不可能对于原文一一比对,只能从年鉴中有专门描述的内容中进行标目,再通过阅读所有标目后发现可以编制二级标目的词项。为了保证标目的完整性和加快编制进程,我们一方面浏览本年度年鉴的内容,另一方面也参考前几年的年鉴索引中的二级标目。还有些相似组织结构的年鉴内容,从一个标目就可以了解到多个标目的编制方法。如正文中,“民革江苏省委”下有参政议政、组织建设、社会服务等小标题叙述的内容,很容易想到其他民主党派也可采用相似的组织形式,与正文比对后,很容易建立起二级标目。
经过统计,本次主题索引中共有条目约3761条,其中二级条目约有969条,应该说这个数目说明我们在挖掘条目关系、编制多级标目上做了很大的努力。
3.3 标目的处理
(1)人名、机构名、地名的处理
上文已经提到,限于篇幅,2011年江苏年鉴索引不设置专门的人名索引、机构名索引、地名索引等,但是对一部分人名、机构名和地名,仍要予以标引,即把它们统一编制在综合性的主题索引中,以便读者检索。为了限制人名、机构名、地名条目的数量,做了多项规定,例如:
●凡是文中立出专条的(即文中论述的)人名和机构名,可以立为标目;未设专条的,一律不予标引。
●凡是文中出现的撰稿者姓名,一律不作人名处理。
●凡是地级市地名,一律用作主标目,可以为它们设置副标目。
●凡是县级市、市辖区或县的地名,可用作标目,但不设副标目。
●地级市可以用作农业、工业、贸易等标目下的副标目。
●以地名开头的机构名,一律当做机构处理,不作地名处理。
(2)标目用语的精简和规范
标目一定要简洁、清晰,如字数过多要尝试删除不影响原意的部分,如“交通运输等重点行业领域”这一条目,就可以将其缩减为“重点行业领域”(该条目为“安全生产”的副标目)。而某些条目省略部分后无法揭示原文信息,所以就要保留全部内容,例如:“‘孙义燧星’命名仪式”就不应该缩减为“孙义燧星”。而“卫生事业”、“文化事业”等条目也不应该省略为“卫生”、“文化”等。
由于本次年鉴为2011年江苏年鉴,是对2010年江苏全年信息的收集,因此在正文中以“2010年”、“江苏”等字样起始的名词在标目中应当去除。但是在标目中间出现的不可省略,例如“九三学社江苏省委”。此外一些专有名词中嵌有“江苏”一词,也不可省略,如“江苏银行”、“江苏省纪委”、“江苏软件园”、“江苏台湾周”等。
团体名称中,类似“有限公司”中的“有限”一词,如果保留会造成标目过长,而去除也不会产生歧义,这类词在标引过程中应该省略。在不引起歧义的情况下,尽可能精简,使索引条目简洁、明了。
为了方便读者检索条目,词语在标目中的位置也有必要规范。根据读者的检索习惯,标引词短语的中心词需前置,尽量采用名词词组型,如“推进沿海开发”具体标目时应当标为“沿海开发推进”,同理,会议、比赛等的届次应当后置,如“第十七届江苏省运动会”改为“江苏省运动会(第17届)”。
4 文献索引的编制
文献索引的内涵比较广泛,这是一种以文献名称(书名、刊名、篇名)为标目的专门索引,也可称为题名索引。在年鉴中,可能有书名、地方志名、地图名、文件名以及报告名等。这些文献大多为政府文件,查找这种文件的需要就成为编制文献索引的主要原因。
就目前的技术来看,为了避免编制中产生不必要的错误,采用“人机合作”的方法,具体步骤是:第一步,使用WORD查找功能查到书名号,判断是否满足标为书名的各项条件,若满足则予以标引,否则不处理;第二步,将原文中具体论述过的一些未使用书名号括起来的文献名标出来;第三步,用索引软件自动生成文献索引。
笔者使用WORD编制文献索引时,也考虑过直接使用软件,将所有书名号识别出来,然后进行统一编制,具体操作如下:
(1)为防止数据出错,先备份原文,将所有文字设为黑色字体;
(2)第一次替换《*》>>^&^p(表示查找内容和段落标记)(格式-字体-颜色-红色)(使用通配符),替换后所有书名号括起来的词条都会以红色显示;
(3)第二次替换 *(字体格式黑色)>>不输入任何字符,且不限定格式;
(4)第三次替换将“《”与“》”分别替换为^p;
(5)将数据复制到EXCEL表中,排序后选中数据,假设数据从A1到A100(当然实际处理比这个多),设置条件格式为公式=COUNTIF($A$1:$A$100,$A1)>1,格式设置图案为蓝色,这样很容易看出哪些数据重复了,删除重复项。在B列写出A列原词对应的标引词;
(6)新建一个WORD文件,创建表格,在表格中导入EXCEL的数据,保存文件;
(7)打开备份好的原文,选择自动标记,将之前保存的文件作为标引词表,然后WORD软件将会自动标引(即批处理),根据原文的大小和机器处理能力,处理时间不等;
(8)完成标记后,选择一种索引格式,在适当的位置即可生成文献的书名索引。
正如前文所说,这种做法会遇到这样一些问题:
(1)当机器自动标引(即批处理)时数据量过大,可能会出现漏标的现象,即某些也用书名号括起来的书并没有被软件自动识别;
(2)而且对于文献中包含引号的书名,软件在标引时可以识别引号,但在生成最终的索引时,会将引号后(包括引号)的内容省略掉。例如:“将‘老工伤’人员纳入工伤保险统筹管理的通知”形成的标目就会只显示“将”。这些都是软件自身的不足。
对于这些不足,可以考虑制作多个索引自动标记文件,每个文件中只有20条以下的索引项,这样则不易产生错误。
文献索引编制还要注意以下问题:
(1)有些文献名使用的是简称,如《意见》、《纲要》、《建议》和《说明》等等。这些简称有些可能是某些文献名的缩写,如果不分清楚就加以标引,就会有产生大量重复。所以我们对此的处理原则是,要先到原文中查找,把简称转换为全称;
(2)有些文献因种种原因未加上书名号,这类文献这也只能回到原文中一一标引;
(3)动漫、书法、文艺节目和展览等名称,在年鉴中往往被加上了书名号。由于篇幅限制,这些名称通常不宜全部收录文献索引,有的可以直接删除,有的可以加入主题索引。为此,要制定有关的收录原则。
(感谢江苏省方志办牟国义主任和南京农业大学侯汉清教授对本文写作的指导)
参考文献
1 侯汉清主编. 索引编制手册[M]. 北京:中国标准出版社,2012
2 叶明辉. 对《广东卫生年鉴》索引编制的思考[J]. 医学信息. 2010,23(7):2042-2043
3 朱晓京. 年鉴索引的制作及要领[J]. 年鉴信息与研究. 2005 (6):35-38
4 葛永庆. 年鉴索引及其编纂实践[J]. 年鉴信息与研究. 2005(5):51-53
5 孙琳. 索引之星与Word索引软件的比较[J]. 中国索引.2006(4):6-11
6 张琪玉. 图书内容索引编制法:写作和编辑参考手册[M]. 北京:化学工业出版社,2006
7 温国强主编. 索引编制规则(总则)应用指南[M]. 北京:国家图书馆出版社,2011
汪 旸 南京农业大学信息科技学院硕士研究生。
何 琳 南京农业大学信息科技学院副教授,博士,主要从事知识组织和信息检索研究。