中国索引软件的开发与应用 王彦祥
发布时间:2018-09-25  浏览次数:20

中国索引软件的开发与应用

王彦祥

(北京印刷学院  102600

    论文首先回顾了中国索引软件开发的前期探索过程,进而讨论了中国索引软件的研制瓶颈和取得的实质性突破。通过分析典型的中文“索引之星”软件,从十方面总结归纳出索引软件的功能与特点,并针对“索引之星”编制中文索引的具体步骤、操作方法、技术特色等进行多角度剖析。论文最后指出,中国索引软件的适应性较强,可应用于中文索引的直接编制、目录快速编纂、排版文档浏览、字词和页码排序、索引词表管理等多个方面,代表了中国索引技术的发展方向。

关键词  索引软件  索引之星  软件开发  中文索引

 

1  中国索引软件开发的前期摸索

基于汉语的中国索引软件开发,源自个人计算机开始大幅度普及的20世纪90年代中期。起初,中国的图书情报学者和索引编制者从文字处理软件(如WordWPS)、表格软件(如Excel)及数据库(如FoxBaseAccess)软件中的自动排序功能、目录索引自动生成功能中,探讨中文索引的计算机辅助编制。其中具有代表性的研究成果,按时间排序刊载于下列若干篇论文之中:侯汉清发表在《图书情报论坛》1993年第4期上的《文献分类法索引及其计算机辅助编制》,曾蕾于1994年发表在《索引研究论丛・索引工作自动化》中的《计算机辅助标引及索引编制》,黄水清发表在《江苏图书馆》1995年第1期上的《汉字索引款目计算机排序的原理与实践》,何静发表在《情报理论与实践》1995年第2期上的《图书内容索引的计算机编制》,侯汉清发表在《高校文献信息学刊》1995年第3期上的《计算机在索引工作中的应用》,张琪玉发表在《图书馆杂志》1997年第3期上的《用WPS文字处理软件编制简单电子索引的方法》。

1998年,王彦祥先生发表了《计算机辅助编制年鉴索引》一文,对利用数据库软件辅助编制中文索引进行了归纳,指出“所谓计算机辅助编制索引,是指在人工标引索引词(索引标目)并输入到计算机之后,由计算机完成排序、存储、打印输出,最后产生正式索引的过程”[1]。

经过若干年的探索和尝试,王彦祥先生在2000年出版的《实用年鉴学》和2003年发表的《年鉴索引编纂问题及其解决方案》论文中,系统总结出计算机辅助编制中文索引的一般流程[2]:

人工标引索引词         录入索引款目        打印、校对、修改        计算机自动排序       文件转换、打印输出        排版、校对、付印

与此同时,中国的一些科研机构尝试利用计算机全文检索技术,进行自动抽词并编制出主题索引。这种方式最具典型性的是中国北方计算中心开发出的“计算机图书索引生成系统”。其原理是先期选定或编制一个中文索引主题词表,并输入到计算机,形成“主题词表文本文件”,然后利用所开发的系统程序,对目标文档进行扫描检索,将相吻合的主题词提取出来,并标注具体的页码地址,转换生成为一个“索引词表文本文件”,最后对该文件进行索引词排序、文字校对和格式编辑,输出为正式的索引文件[3]。

以上这些有益的探索,为中文索引软件的开发奠定了坚实的基础。但毋庸讳言,这些尝试只是利用了计算机及其相关软件功能,结合中文索引编制的特点,开展的索引辅助编制,距离真正意义上的中文索引软件,还有较大的差距。

2  中国索引软件的研制瓶颈和实质突破

鉴于中文语意的复杂性和方块汉字结构的独特性,以及中文索引词的随意性,都为中文索引软件的开发设置了障碍。为此,中国著名图书情报学家、索引学会副理事长张琪玉先生专门撰文《图书索引软件的功能要求与编制难题》,剖析了开发中文索引软件的两大难题[4]。一是标引的功能,即抽取书内可索引内容,编成索引标目与副标目;二是编制出处项的功能,即给出迄止页码。

进一步说,要利用相关技术从大量关键词中准确地抽取出少量的、符合要求的索引词,并自动跟随出处项,达到实用高效的编制效果,是中文索引软件开发的真正瓶颈。

中国索引界经过几十年探索,针对中文的计算机索引编制和索引软件开发,提出人机结合的解决方案,具体包含两种模式。第一种是“人工标引索引词+计算机抽词处理+自动添加地址出处项+计算机排序整理”,第二种是“计算机抽词(依据主题词表或抽词词典)+自动添加地址出处项+人工修正处理+计算机排序整理”。这两种变通性的中文索引软件开发模式,尽管不能达到完全自动编制中文索引的目标,但可以有效控制索引质量和索引篇幅,满足中文索引与数据库开发的现实需要。

循着这两条中文索引软件开发思路,北京印刷学院出版系副教授王彦祥先生和北京长城云天科技发展有限公司合作,于200310月取得了实质性突破,研制出面向中文出版物的“索引之星”软件1.0版,并使用该软件编制出几百种索引。一年后,“索引之星”软件升级到2.0版,功能进一步完善,应用范围也更加广泛。

3  “索引之星”软件的功能与特点

“索引之星”是一款用于编制中文出版物索引的专业软件,其利用自主开发的文档转换和索引词标引、排序等核心技术,通过专业化、人性化的设计,可以运行在各种版本的Windows平台上,实现索引和目录的快速编制。用户使用“索引之星”软件,可以打开中外流行的排版文档、电子书PDF文档,及文字处理软件生成的RTFTXT等格式的文档,可直接进行索引词和目录款目的任意标引、自动添加页码(地址出处项)、自动排序编辑和打印修改等工作。概括地说,“索引之星”打破了中文排版文件的制约,编制中文索引时除了需要人工抽词标引外,其他功能均已全面具备,达到了编制索引的高质量和高效率,其主要功能和特点具体有如下几点[5]:

1)支持中文排版软件,即北大方正排版文件S2S72S92PS2MPSNPS直接标引。“索引之星”内嵌了自主开发的大样文件解析引擎,无需其他软件,便可以直接打开这些中文排版文件,并进行索引词的抽取,并自动添加地址出处项。其实这也是“索引之星”的一大技术关键,因为中国有90%以上的出版物使用北大方正软件进行中文排版制作,能够利用其排版文件内直接抽取索引词,也就意味着在技术上突破了排版软件的制约,解决了中文索引软件的核心问题。

2)支持PDF文档的直接标引。PDF是全球电子文件和表单进行安全发送与交换的事实标准。“索引之星”同样内嵌了自主开发的PDF文件解析引擎,可直接打开和处理PDF文档,进行文件内的抽词标引和自动添加地址出处项。

3)支持RTFTXT等文档的直接标引。对于办公、写作、编辑出版等工作中最为常用的RTFTXT等文件,“索引之星”同样可以在软件内打开和使用,并进行索引编制操作。

4)具有索引词任意标引和自动添加页码功能。利用各种排版文档或者文字处理文档,“索引之星”可以深入到文档内进行索引词的直接抽取等操作。同时,软件支持索引词的即时修改、删除、增添等操作,然后按照索引编制要求,自动跳转出正式的索引词,并自动添加地址出处项(页码项),实现索引词和地址出处项的一次性生成。

5)具有针对索引词的汉语拼音音序、中文笔画、数字页码等类型的排序功能,且排序速度快,一次点击即可完成。

6)具有索引编辑、打印、修改功能。为便于索引的校对和后期整理,软件提供必要的文字编辑和修改功能,以及索引词表打印功能。

7)具有书刊目录快速生成功能。由于“索引之星”能够直接利用带页码的排版文档进行抽词操作,根据这一特点,把它运用到出版物目录的编制上,直接生成带页码的目录只需很短的时间,而且可省略人工校对等烦琐环节。

8)具有索引项目动态管理功能。通常一部书稿由若干个电子文档组成,每个文档的起始页码和栏目数量各不相同。利用“索引之星”独特的项目管理功能,可有效管理与项目有关的各种文档及参数,做到一次设定后,便利索引编制工作。

9)操作界面美观大方,使用方便快捷。“索引之星”设计了许多便捷功能和快捷按钮,操作起来得心应手。例如,点击鼠标右键可自动提交索引词,工作模式实现一键转换,栏别直接设定,可视化的页码跳转……诸如此类,均可在软件的主界面上直接操作完成。

10)专业化的功能设计,适用于编辑出版和信息检索等多个领域。“索引之星”参考了索引专家多年的索引编制经验,全面优化了书刊索引和目录的编制流程,可成为编制各种中文索引和目录的标准化软件。

4  “索引之星”软件的索引编制解析

使用“索引之星”软件,使中文索引的编制流程发生了不小的变化,参照前面所述的计算机辅助编制索引流程,“索引之星”的索引编制流程优化如下[6]:

启动“索引之星”并灌入目标文档       标引(抽取)索引款目      索引文档即时校对、修改      索引款目自动排序      人工合并调整、添加排序符号      排版后提交索引成品

    “索引之星”软件在编制一个完整的中文索引时,其具体操作可以压缩整合为以下六大步骤:

1)创建索引项目

    为了对即将编制的索引进行有序组织,须新建一个索引项目。“索引之星”将索引项目作为一个“容器”,通过逻辑方式进行管理、编辑和生成最终的索引文件。在软件中,一个项目就对应着一个索引文件,项目文件中存储的内容包括:索引词表、与项目关联的文件、文件存取位置等。

2)设置文件属性

    通常一个索引项目中会包含多个编制对象文件,每一个对象文件的属性各不相同,因此在进行索引词标引之前,须将相关的属性信息添加到项目中来,以设置好每一个对象文件的属性。对象文件的属性主要包括起始页码和分栏数量两项。

    起始页码指该对象文件的第一页在原书中的确切页码。其设置目的是为了在索引词标引时,软件能够自动生成与原书相一致的页码项。分栏数量指文档在原书中栏目的数量,它的作用是在标引时根据栏目数量和鼠标位置,自动计算索引词的栏目位置。在“索引之星”中,可以设置的最多栏目数量为3个,即自左至右的abc栏,设为通栏时,则页码后面不添加任何代表栏别的字母。

3)索引词标引

利用“索引之星”进行索引词标引,实质上就是从打开的对象文档中,选中和抽取适当的词语,以建立一个“索引词表”。具体标引时,在索引对象文件中抽取一个个索引词,并将它们逐一添加到索引词表之中。与此同时,索引词的页码项(含页码数字和栏别字母)会被软件自动计算出来,跟随到索引词的后面,一起进入索引词表之中,形如“长城  105a”、“黄河  63b”、“太行山  78c”。“索引之星”最多支持索引词的三级标引,其索引编制的主界面如下图1所示。

  1

4)编辑修改索引词表

在编制一个索引项目过程中,总会出现各种错误,如索引词选择错误、栏目设置错误,鼠标或者键盘操作错误所导致的字词、页码、栏别等错误。因此在完成索引词标引之后,有必要对索引词表(即所有索引款目)进行编辑、校对和修改。操作时在软件的“修改模式”下激活要修改的索引款目,就可以进行修改操作,直到符合要求为止。然后对索引文件进行保存,原来的索引词表内容就被编辑修改后的新内容所替换并保存,成为正式的索引词表文件。

5)索引词表排序

软件使用者可将索引词表中的索引款目按照汉语拼音音序、页码大小次序、汉字笔画数等三种排序方法进行排序。“索引之星”的排序操作非常简单,用户只须在表头上点击“索引词”、“首字笔画数”、“页码”的状态条,软件就会按照使用者所选择的排序类型,瞬间完成索引的排序工作。

6)输出打印索引词

为了对编制好的索引文件进行后续排版和打印输出,“索引之星”提供了将索引词表导出为通用性文本文件的功能。同时,软件提供“打印预览”和“打印设置”功能,以利于美化索引文件样式,其操作与其他软件相似,这里不再一一赘述。

5  中国索引软件的应用前景

自“索引之星”在中国问世以来,不仅开发者使用该软件编制了几百种索引,一些研究机构和索引编制者也利用“索引之星”完成了很多索引的编制任务。另外,针对中文繁体字和日语中的汉字特殊性,“索引之星”还进行了相应的优化和升级。日本索引专家松浦崇教授使用后,也给予了充分肯定。这说明中国索引软件的适应性较强,应用前景广阔,归纳起来体现在如下五个方面:

1)应用于索引的直接编制。打开排版文档和文字处理文档等索引对象文件,直接标引并自动计算出页码,可编制出专业化的中文索引。

2)应用于目录的快速编制。利用中文书刊的排版文件,快速提取标题词和页码,生成标准化的卷内目录。

3)应用于排版文档的浏览。利用软件的大样文件解析引擎,直接读取和浏览排版文档,省略了使用专业排版软件等环节,可节省工作时间和软件购置成本。

4)应用于字词和页码的排序。通过内嵌的优于目前流行的文字处理软件的排序功能,提供音序、笔画、数字(页码)等排序方式,可以胜任索引、目录及其相关文件的排序任务。

5)应用于索引词表的管理。利用软件内的“代码表”管理索引词,逐渐形成使用者有针对性的、规范化的名词术语表,对于索引编制和索引研究,特定主题词表的建立和管理,能够带来极大的方便。

如果从使用者的角度来分析中国索引软件的应用前景,除了通用性的索引、目录计算机编制外,还体现在它可以直接应用于索引工作者进行索引编纂技术研究和索引词表的管理;编辑出版工作者进行中文排版文档的浏览和目录、索引的快速生成;图书情报工作者进行字词检索和排序、词表管理;一般文字工作者进行简易目录和索引的编纂,字词和页码的排序处理,常用字词的管理,排版文档的浏览和学习,等等。总而言之,中文索引软件的开发和应用,对于中国特色的索引编制起到了较好的推动作用,也代表了中国索引技术的发展方向。

 

注释

1  王彦祥.计算机辅助编制年鉴索引.年鉴信息与研究,19982

2  王彦祥.年鉴索引编纂问题及其解决方案.中国索引,20034

3  姜昆阳.利用计算机技术编好年鉴索引.年鉴信息与研究,19982

4  张琪玉.图书索引软件的功能要求与编制难题.中国索引,20043

5  王彦祥.“索引之星”的研制和索引编制.辞书与数字化研究.上海:上海辞书出版社,2005

6  王彦祥.我与索引.中国索引,20041

 

参考文献

1  王彦祥.计算机辅助编制年鉴索引.年鉴信息与研究,19982

2  王彦祥.年鉴索引编纂问题及其解决方案.中国索引,20034

3  姜昆阳.利用计算机技术编好年鉴索引.年鉴信息与研究,19982

4  张琪玉.图书索引软件的功能要求与编制难题.中国索引,20043

5  王彦祥.“索引之星”的研制和索引编制.辞书与数字化研究.上海:上海辞书出版社,2005

6  王彦祥.我与索引.中国索引,20041

7  张琪玉.WPS文字处理软件编制简单电子索引的方法.图书馆杂志,19973

8  侯汉清.文献分类法索引及其计算机辅助编制.图书情报论坛,19934

9  侯汉清.计算机在索引工作中的应用.高校文献信息学刊,19953

10  曾蕾.计算机辅助标引及索引编制.索引研究论丛・索引工作自动化,1994

11  黄水清.汉字索引款目计算机排序的原理与实践.江苏图书馆,19951

12  何静.图书内容索引的计算机编制.情报理论与实践,19952

 

王彦祥  北京印刷学院编辑出版学教研室主任、研究生导师,中国索引学会常务理事。