图书内容索引编制系统(BIS)设计探讨 康 艳
发布时间:2018-09-25  浏览次数:21

图书内容索引编制系统(BIS)设计探讨

 

(南京农业大学信息科技学院  210095

    图书内容索引在我国的普及程度不高,很大一个原因是我国的索引编制工作没有实现自动化,索引编制的效率不高。本文在对目前国内两款使用频率较高的索引编制软件――Word和索引之星的索引功能进行分析之后,设计了图书内容索引编制系统(BIS),该系统吸收了Word和索引之星软件的设计经验,并克服其在编制索引功能上存在的不足,最后对系统实现的相关技术问题进行了讨论。

关键词  图书内容索引  索引自动化  索引软件  主题标引

 

1 图书内容索引软件概述

1.1 图书内容索引介绍

图书内容索引,其作用是以书中某些词语为线索,指出与这些词语的描述对象有关的内容位于本书的什么位置(页码,甚至段落)。图书内容索引按索引项的多少,可分为综合索引和专门索引两类。综合索引通常称为主题索引,是指多种索引项(如包含主题、人名、地名、机构名等两种以上索引款目)混合在一起做统一排序的索引。专门索引则是指只含有一种索引项的单一索引。一般图书都只编制一个综合索引,若一种图书除编制综合索引外,还编制专门索引,就称为多重索引1

在西方,书后索引编制的好坏通常作为评判图书质量的重要指标之一,其对书后索引的重视可见一斑,而我国目前出版的图书往往没有附设这种索引。这主要是因为我国的书后索引主要依靠手工编制,费时费力,不利于书后索引的普及。加上国内各种电子出版物的格式千差万别,至今没有形成一个统一的标准,也十分不利于索引的自动生成。而国外早在1992年就已经开始利用计算机辅助生成索引,实现了索引工作自动化。因此,我国若要普及图书内容索引,就要尽快实现索引工作自动化,提高索引编制的效率。

1.2 图书内容索引软件的功能要求

国内外的索引软件种类繁多,性能不一。至于索引编制软件应该具备哪些功能,尽管国内也有不少专家学者对此进行了总结,但是到目前为止还没有一个定论。

侯汉清2在总结中外微机辅助编制的专用软件功能的基础上,认为索引软件大多具备输入与编辑、款目格式的控制、排序与轮排、打印输出、统计等功能;曾蕾3则从索引形式的规范化,款目输入与编辑,整理排序,打印,汇编或合并符号等方面提出了人们选择索引软件的标准;张琪玉4也从我国的实际情况出发,对图书索引软件的功能提出了标引、编制出处项、索引款目排序、产生轮排款目12个要求。另外,南京农业大学信息管理系的孙琳通过对国内索引之星软件和Word索引功能的对比,也对国内机编索引提出了一些期望,包括编制多种类型的索引,支持多种文本类型,排序的多样性和准确性,自动编配参照系统以及实现概念标引和自动标引等。

综合上述意见,笔者认为我国的索引软件至少应该满足以下基本功能要求:

1)适用范围。能够编制关键词索引、主题索引或作者索引等至少一种类型的索引。支持多种文本类型(如DOCTXTPDF以及目前流行的各种文档格式等)。

2)标引。由人工或者计算机抽取书内可索引内容,编成索引的主标目与副标目,能够提供给标引人员灵活的选项。

3)编制出处项。给出标目所在的起止页码甚至章节、段落等信息,包括页码合并功能。

4)排序。可以多种形式对款目进行排序(拼音,笔画,页码等);排序设置可以更加细化,如对主标目和副标目分别采用排序方法等。

5)款目格式。可按照规定的排版格式(分行式,连排式,表格式或标引人员自定义格式);禁止重复出现的主标目和副标目等。

事实上,为了更好地满足索引编制需求,提高软件的灵活性和索引编制效率,索引软件在满足上述基本功能以后,还可以完善或新增以下功能:

1)自动标引。软件能够自动抽取关键词,并自动过滤一些无用的关键词,或者允许标引人员根据上下文对系统抽取的关键词进行人工筛选和编辑。

2轮排索引。系统除编制书后索引外,应开发轮排索引满足工具书辞书内容索引的编制。

3)词表管理。允许标引人员添加词表(如主题词表,副标目表,同义词表,多音字表,代码缩写表等),并对词表进行维护。

4)参照。系统可以通过同义词表自动生成参照或者由标引人员手工添加参照,并可以由标引人员决定是否显示参照出处。

5)汉字排序。软件应该提高汉字排序的准确性。例如在拼音排序上添加对多音字排序的处理,在笔画排序上按照国内笔画排序标准的要求,同笔画汉字按照汉字笔顺排序。同时提供给用户更加灵活的选项。

2 国外索引软件现状

为了提高索引编制的效率,国外索引机构充分利用计算机技术实现索引工作的自动化,各种索引软件及其更新版本层出不穷。1992年《标引软件指南》(第4版)上收录了10种较稳定和流行的专用软件,其中9种是用于IBM微机的,一种是新生产的用于苹果机Macintosh上的软件。所有这些软件都具备排序、规范款目、杜绝重复标题、合并重复出现的标目及页码,提供一个主题和至少两个子标题等基本功能,且至少能容纳1400条款目3。在美国索引学会的网站上也罗列了各种形式的索引工具。该网站把索引工具分为独立索引软件(Dedicated Indexing Software),网络索引(Web Indexing),嵌入式索引软件(Utilities and Add-ons)和叙词表管理软件(Thesaurus Management Software)。其中用于编制图书内容索引的主要是独立索引软件和嵌入式索引软件5

据曾蕾撰文介绍,国外的微机辅助索引编制软件主要有两大类,一类是专用微机辅助索引软件。这类软件有直接输入索引款目和款目出处以及在电子文档上直接标引获得款目出处两种形式。前者以MacrexCINDEXSKY等索引软件为代表,索引员不需要打开图书的电子文本,标引人员将预先选定的标引词和预先统计的该词出处输入计算机,计算机主要对索引款目进行排序和格式设置然后生成索引。这类软件可帮助节省30~50%甚至更多的时间3。后者以TExtract为代表,该软件首先要对文档进行预处理,然后由计算机自动抽词并获得该词的地址出处项。用户可以根据显示的抽词结果直接进入原文判断是否采用该词作为索引标目,最后由计算机统一对索引款目进行排序和格式设置。TExtract相对人工标引减少了标引人员的工作量,其允许标引人员对计算机自动抽词结果进行筛选和校对的功能充分体现了人机结合的索引编制过程,大大提高了索引编制的效率。国外另一类索引编制软件是内含索引编辑功能的文字处理软件,如“Microsoft Word”软件,DEXteremDEXIndexAssistantIXgenWordEmbed等。其中,DEXterIndexAssistantWordEmbed是在WORD原有的索引功能及文字处理和编辑功能的基础上,对其索引功能进行完善和增补。除了Word以外,这类软件需要在使用前加载相应的模板来添加其新增的索引功能。

国外的索引软件中除了Word以外基本只支持对英文图书的处理,它们基本都支持PDF格式文档。在国内,中文汉字在语词切分上的困难和各种电子出版物在格式上的不统一,使得我们不能直接将国外的这些索引软件用于中文图书内容索引的编制,只能通过吸收其成功经验,结合中文图书自身特点,来探索实现我国索引工作自动化的方法。

3 目前中文索引软件分析

国内对索引软件的研制起步较晚,与国外相比还存在一定的差距。其中,由北京长城云天科技发展有限公司开发研制的索引之星软件可作为国内进行索引工作自动化研究的成功典范。随着office软件在我国的普及使用及其强大的中文处理能力,Word自带的索引功能也相当于免费的索引软件。这两款软件在国内应用广泛,较适合于编制中文图书索引,但都没有完全实现索引自动化,在功能上还有待完善。

3.1 WORD索引软件

Word自带的索引功能能够生成结构完整的图书内容索引。该功能简单易学,适合于专业与非专业索引人员使用。但在利用word编制图书内容索引的过程中,仍然有以下一些缺陷有待完善。

1)适用范围。只能处理docrtf等格式的文件。因此对于其他格式的文档,在使用前必须将其转化为word格式的电子文本才能进行处理。而在格式转换的过程中,原文档内的地址出处项就有可能发生变化,同时也增大了前期处理的工作量。

2)标引。Word支持“一次选中,全部标引”,该功能方便的同时也会产生误标引,还会把没集中讨论的主题也包含在内,例如有些词只是在文中被提到,并不是当前讨论的主题,使索引的查找功能大大下降;Word每页的同一个词语最多标记3处,在“自动标记”和“标记全部”功能中,会出现漏标现象;Word中标记区分大小写,会使完全相同的汉字漏标;在标引的过程中没有最大字数的限制,即使用户选择标引一段,生成的索引中也会将该段落作为标目显示出来;在“交叉引用”功能中,Word只给出指向副标目的地址,没有主标目的地址。这样能增加检索入口,却不可扩大查找范围;不能在标引的过程中预览索引结果,也就是说用户不能直接看到标引更新的结果,使Word索引功能的灵活性降低;“自动标引”功能在标目较多的情况下标引的结果不可靠。

3)编制出处项。Word不能自动合并页码,只能依次罗列出标目出现的位置。对于连续页码的标目,Word提供了插入书签的方式来由索引员手工操作。Word对出处项的标记也不够精确,例如对于分栏的图书不能标示出标目所在栏目位置。

4)排序。Word只有拼音和笔画排序法,不能按照页码排序;Word不允许分别设置主副标目的排列方式;对于有标点符号的标目,会把标点符号作为排序对象,没有让用户设置是否忽略非汉字符号的选项;另外Word在笔画排序上不符合国内笔画排序的标准,对于相同笔画数的汉字,Word是按照其在文本中出现的先后次序为排序依据的,除此以外个别汉字的笔画数也不正确,如“之”,“晚”,“梢”,“梨”等。

5)其他。由于Word的索引功能不是特别针对国内的索引人员研制,因此其使用的一些名词术语,如“交叉引用”,“请参阅”等等不符合国内索引编制的专业术语,不符合国内索引编制术语规范。

3.2 索引之星软件

Word的索引功能不同,索引之星是近年来由北京长城云天科技发展有限公司开发研制的一款用于快速编制书刊索引和各种目录的专业软件。该软件虽然没有Word那么强大的中文处理功能,但作为专们索引编制软件,在界面和功能设计上同样能够方便索引人员,提高索引编制的效率。

1)适用范围。索引之星的适用范围较广,能够支持方正大样文件(MPSPS2S92S72S2)的直接浏览和索引,并且能够支持PDF文件和RTFTXT等文字处理软件的直接标引。但不支持对Word文本的标引。

2)标引。索引之星不支持“一次选中,多次标引”,增加了工作量。同样,在标引过程中也没有最大字数的限制。虽然索引之星也不能即时浏览标引的结果,但是在项目工具箱里可以表格形式看到标引的结果,并对标目按照笔画,拼音和页码排序。

3)编制出处项。索引之星在页码显示方面显得不太灵活,软件不能自动合并页码,甚至连相同的款目也不能合并。对于处于连续页码的标目,只能通过手工添加。工具栏中不允许页码为空,而这在索引编制过程中是有可能出现的。

4)排序。索引之星软件在排序方法上比Word软件增加一个按页码排序。但在笔画排序上只能够按照首字笔画排序,对于首字笔画相同的标目则只能按照标目原来的先后顺序来排列。索引之星也没有让用户设置选择是否忽略非汉字符号的选项,对于以符号开头的汉字都会排列在汉字的前面。

5)款目格式。由于缺少了Word软件的文字处理功能的支持,在款目格式的生成上,索引之星给用户提供了较少的选项。

6)其他。索引之星没有提供编制参照的功能。

4 图书内容索引编制系统的设计

综合我国目前主要的索引软件在功能上存在的不足之处,本文结合中文图书的特点和中国索引人员的需要,吸收Word索引功能和索引之星软件在编制索引方面的成功经验并针对其不足设计开发出一套索引编制系统。

4.1 系统设计思想

确立系统的总体原则,对构成系统各个要素在总体目标下进行优化设计是非常必要的,对系统的结构和功能有指导性作用。本文参考孙芳对通用文献检索系统确立的系统设计思想[6],确立图书内容索引软件的设计原则如下。

1)准确、可靠性原则。准确性是书后索引软件赖以生存的必要条件。包括选词和索引款目地址标注的准确等。

2)快速、高效原则。效率是衡量系统性能的重要指标之一。在保证索引正确性的前提下,要充分利用计算机资源来优化算法。对于图书内容索引软件,主要是能够保证批量标引和快速排序的速度并导出索引结果。

3)人工辅助原则。索引的研究、建立、编辑、使用过程中,不可避免采用大量的模糊逻辑问题,由人工辅助解决这类问题,有益于提高索引的质量。

4)灵活、易操作原则。操作简单方便,设置灵活,既能适应简易索引的编制,也能适应详细索引的编制。在系统设计上,主要体现在提供给标引人员更灵活的选项。

4.2 系统功能及其结构

建立图书内容索引软件的目的是减轻索引人员的工作,得到高质量的图书内容索引,从而推动我国索引工作的自动化。本系统作为一个专业的索引编制系统,主要具备以下功能模块:综合索引、专门索引、检索、索引排序、索引排版和系统维护。如图1

文本框:专门索引文本框:检索文本框:索引排序文本框:系统维护文本框:索引格式


1  系统模块结构图

4.3 模块功能说明

标引是索引编制过程关键、最复杂的一个步骤。在很大程度上,标引的质量直接决定了索引的质量,鉴于图书内容索引的不同类型,系统将标引过程分为综合索引和专门索引两个模块。

1)综合索引模块

2  综合索引模块

功能描述:如图2所示,本系统把索引建立分为标引和参照两个子模块,标引下面又分自动标引,常规标引和批量标引三个部分。

自动标引:主要采取由计算机切词,通过人工设定阈值等条件选择标目的方法。该方法不能保证标引结果的完全正确,但是能最大程度提高索引编制效率。

常规标引:由标引人员选择索引标目,允许对标目各要素进行详细的设置(如设置副标目及添加出处等)。

常规标引中,用户可以选择全部标引、只对当前选中词标引或根据检索结果逐条进行标引。这个部分里结合了索引之星的先检索后标引的功能以及Word里的“标引全部”功能,给标引人员更大的选择空间。

考虑到一般科技图书的内容索引最多只有三级副标目,本系统允许标引人员最多设置三级标目。另外,在显示地址出处项部分,系统允许用户根据需要选择是否同时显示主副标目的页码。以此类推,对有三级标目的索引,允许用户设置是否同时显示二级标目的页码。

编制出处项部分,本系统吸收索引之星将标引结果即时显示在界面上的优点。对于连续的页码不需要通过Word中插入书签的方式,标引人员只需在界面上直接编辑即可。当然系统同时也须具备合并页码的功能。

批量标引:允许标引人员对书籍中选中作为标目的关键词和指定作为标目的词依次排列在表格中,由系统对该表格进行处理,计算机自动对图书内容进行全部标引。

该功能融合Word自动标引的特点,减少了标引人员的工作量,大大提高了工作效率。但由于是批量处理,在对标目设置的灵活性上有所欠缺,只能对简单的标目进行处理。可以和常规标引结合起来使用以互补不足。

参照:允许用户添加“见”参照和“参见”参照。

参照以“卡片”形式添加。如果用户选择添加“见”参照,系统自动生成“A  B”的形式,不需要自动获得页码。因为“见”参照的作用是指引用户找到正式标目,扩大检索入口。因此“见”参照只需要给出参见对象,检索用户再根据参见对象获得地址出处。如果用户选择添加“参见”参照,系统自动生成“A 参见 B”的同时,还要同时获得并添加标目A的页码。因为“参见”参照的作用是指引用户查找相关范围的标目,扩大检索范围。具有检索意义的A也应该提供地址出处。

参照子功能模块是在吸收Word索引功能和索引之星软件的功能基础上设计完成的。Word中有单独的参照功能,但是不能显示页码。而索引之星软件可以在编辑标目的过程中添加参照,也可以把参照作为二级标目添加,但是索引之星不允许页码为空,因此所有的参照都必须设置页码。本系统从这个角度对其进行完善。

2)专门索引模块

功能描述:专门索引主要指地名索引,人名索引,工具书索引,语词索引等一系列只含有一种索引项的单一索引。系统采用抽取主要条目并标注地址的方法来编制此类索引。在标引过程中没有综合索引的过程复杂,在显示方法上,系统应该为此类索引提供轮排索引的显示方法。

3)检索模块

功能描述:检索模块的功能较单一,其作用主要是辅助标引。具体做法是,由标引人员输入关键词,系统在书籍中查找该词的相关出处并显示给标引人员。标引人员可以通过双击该词指向其在书籍中的具体位置。根据上下文就可以决定是否将该词选作标目。该功能是参考索引之星的检索功能设计以弥补Word在全部标引有可能出现滥标的缺陷。

4)索引排序模块



3  索引排序模块

功能描述:排序模块主要对索引款目(包括副标目)进行排序。实现按拼音排序,笔划笔画排序和按页码排序(见图3)。该模块允许标引人员分别选择主标目和副标目的排序方式,同时允许用户选择在排序过程中是否忽略汉字以外的标点符号。

拼音排序:能精确按照汉字首字母排序。该功能基本沿用Word和索引之星的拼音排序方式。

笔划排序:按照国内笔画排序标准,首先按照汉字的笔划排序,对于笔划相同的汉字允许用户选择按照笔顺或者拼音排序。

页码排序。按页码的升序或降序排列。

5)索引格式模块

功能描述:允许标引人员对索引生成的格式进行选择,或者由标引人员自己设计索引生成的格式。

6)系统维护模块

功能描述:主要由标引人员进行系统设置,允许标引人员对各种切词词表或同义词表进行维护,同时提供系统使用的帮助及版本信息。

4.4 系统流程图

考虑到索引建立模块在系统中的重要作用及其复杂程度,图4主要是综合索引建立的系统流程图,省略了索引排序和格式排版模块的流程处理。

4  系统流程图

5 若干编制技术问题的讨论

由于现存的电子书籍格式各异,仅国内流行的方正大样文件就有S2S72S92PS2MPS等多种格式,除此以外还有国际通用的PDF格式,DOC文本格式等等,因此在编制索引之前必须首先对这些文本格式进行转换,这就涉及到格式识别问题。另外,不同种类的图书(如百科全书,辞书,图谱,手迹等)对索引编制的要求也不同。因此,在系统设计的过程中,考虑到系统的技术实现以及各种电子书籍本身存在的特点,本系统主要集中力量讨论如何利用计算机辅助编制图书综合索引。因此,本系统主要涉及到以下技术问题:

(1)文本预处理

索引之星软件能够识别各种大样文件,软件的通用性很高,也为索引人员带来了很大的方便。系统应具有识别各种图书格式的功能,并能提取待索引书籍的内容,将其按照要求转换为文本文件进行处理。

为了在提取标目地址出处项上提供更大的灵活性,系统允许标引人员选择是否按章节、段落显示出处或按页码显示出处。这就需要系统按照章节或者段落提取并存储书籍信息。例如,若选择按章节显示出处,系统首先对图书内容按照章节提取文本并将其存储在数据库指定字段中。标引时对以字符串形式存储在字段中的每个章节内容进行处理。而章节名称则作为地址出处项单独存储在另一个字段中,在自动标引或人工辅助标引的过程中,该字段就会作为地址出处项被提取出来。

(2)自动标引

前面系统设计中的大部分都是人工参与的索引编制工作,没有完全实现索引工作的自动化。而自动标引则是计算机参与程度相对较高的一个功能设计,对实现索引工作自动化具有重要的意义,因此该功能设计的难度也就相对较大。

自动标引的过程是,首先以数据库中每条记录为单位,对每条记录存储章节内容的字段进行切词并获取该词的地址,获得的切词结果保存在词表中。很明显该词表是暂时的,只在标引该书籍的过程中有效。然后对切词的结果进行处理,包括去除停用词,通过设计权重剔除干扰词,最后按照该词在篇章中的重要性排列,人工设定阈值选取章节中有检索意义的词作为索引款目,同时将相应的地址附在款目后面。用户可以看到切词的结果并进行最后的人工筛选。

(3)批量标引的效率

系统增加了Word的“自动标引”功能。即由索引人员事先制作一个索引文件,格式要求制作为两列的表格,第一列是索引项,键入计算机批量标引的索引词,必须确保键入的文字和他在文档中的文字格式完全一致;第二列是索引词,键入与第一列有关的索引项的索引词。计算机会对待标引图书中进行索引项和索引词的标引,会在整部稿件中搜索索引文件第一列文字的确切位置,然后使用第二列文字作为索引词进行标引。Word的自动标引对多次人工标引采用批量处理方式,对效率的提高有很大的促进作用,但是当索引文件的表格过于庞大的时候,该功能就不太可靠。因此本系统要考虑采用该方法的准确性和对大批量数据处理的效率问题。

由于对于图书文本内容采用数据库字段存储,可以通过将记录分为若干组,对每组进行循环处理的方式解决效率问题。

(4)参照

尽管可以通过人工设置来添加参照。但是系统也允许标引人员自己添加同义词表来添加“见”参照。

标引人员首先构建该图书中索引款目可能存在的同义词表,表格格式类似于批量标引中表格格式,第一列同样为索引项,而第二列则变成该索引项的同义词,由计算机根据该文件自动生成“见”参照,为标引人员增加检索入口。

(5)排序

随着中文信息处理技术的发展,很多专家学者提出了多种汉字排序方案,其中按拼音和笔画排序占主要地位。汉字在计算机的编码分为两部分,一部分是常用汉字,另一部分则是复杂汉字。两类汉字分别以不同的编码形式在计算机中存储,如常用汉字在计算机中按照机内码排序,而复杂汉字则无序排列,这为汉字按拼音排序带来了不便。而若以笔画排序,对于笔画相同的汉字是按照笔划顺序还是按照拼音排序,如不指明,会给索引使用者检索带来不便。

若要完全按照编码对计算机排序是不太可能的,因此,不管是按拼音排序还是按汉字排序都需要建立一个汉字库作为排序时的参照。

一个完善的索引编制系统需要经验丰富的索引编制人员和计算机软件人员的紧密合作才能研制成功。本系统以国内两款流行索引软件的功能分析为基础,结合笔者有限的索引和软件开发知识设计而成。系统主要集中力量解决综合索引的编制问题,同时兼顾专业索引的编制,在功能上可能有所欠缺。但系统从各个角度对自动编制图书内容索引的方法进行了探讨和尝试,力求提高索引编制的效率,从而推动我国索引工作的自动化。

 

参考文献

1 张琪玉.图书内容索引编制法――写作和编辑参考手册.化学工业出版社.2006

2 侯汉清.索引法教程.南京农业大学出版社,1993

3 曾蕾.索引工作自动化:计算机辅助标引及索引编制.中国索引学会,1994

4 张琪玉.图书索引软件的功能要求与编制难题.中国索引,20043

5  AmericanSociety of Indexers. Software tools for indexing. 2007-10-31http://www.asindexing.org/site/ software.shtml

6 孙芳.通用信息文献检索系统(GIRS)设计探讨.图书馆学研究,20078

 

  女,南京农业大学信息科技学院硕士研究生。