国外图书内容索引软件的比较
康 艳
(中国电信集团号百信息服务有限公司 上海 201315)
自机编关键词索引思想提出以来,国外机编索引技术发展迅速。从设想到实验,从实验到应用,涌现了一批功能成熟的索引工具。本文主要通过使用各种国外索引软件,分析并比较其在编制图书内容索引过程中体现的强大功能特点,以期为中国索引软件的开发和应用起到一定的借鉴和推动作用。
1 国外图书内容索引软件介绍
美国索引协会按照专用索引软件(Dedicated IndexingSoftware)、网络索引软件(WebIndexing)和嵌入式索引软件(Utilitiesand Add-ons)对现有的索引软件进行分类[1]。其中专用索引软件和嵌入式索引软件都是用于编制图书内容索引的。本文就主要是对这两种类型的索引软件的功能进行介绍。
专用索引软件是专为索引编制工作而设计的,该类软件被许多专业标引员、出版社编辑和图书馆工作人员广泛使用。使用这类软件的一般过程是,首先由标引人员将选择的标目键入计算机,由计算机对标目进行排序并统一格式,最终生成索引。早在1992年,国外就已经有了Macrex、Cindex、IndexAid2、Indexer's、Assistant、Indexit、INDEXX、IN>Sort/Mac、In>Sort/Dos、NiCindex、wIndex等10多种较稳定和流行的专用索引软件。其中以Macrex、CINDEX和SKY Index使用最为广泛。除此之外,还有一种名为TExtract的索引软件,能够直接在pdf、txt格式的图书上进行标引,避免索引员手工键入标目,提高索引员的工作效率。CINDEX和SKY Index索引软件的功能类似,因此本文主要介绍Macrex、CINDEX和TExtract三种索引软件的功能。
2 Macrex
Macrex[2]是在20多年前由Bayside Indexing Service编制的,版本已更新到Version 8。Macrex主要是为了实现索引编制步骤的自动化,帮助索引员提高索引编制的效率。
Macrex用途广泛,它可为各种图书(包括传记、字典、百科全书、名录、学术论文、娱乐性书籍等)、期刊、网站和CD-ROM光盘、非书媒体(包括展览会目录、手册、会议记录、年鉴、图画、档案、卡通、手稿等)、双语及多语种文本编制索引,Macrex甚至能用于电话和地址目录、单词表、术语表、叙词表和分类体系等[3]。值得注意的是Macrex也能够嵌入Word。
Macrex输入款目的操作界面如图1所示。界面分为三个部分,上部是对系统当前状态的描述信息(包括插入的索引款目条数、是否忽略大小写、分组信息等),中间编号的32条记录是已经输入的索引款目,下面红色字体的Ready�即索引员输入款目的入口。
Macrex产生的索引示例见图2,其中左图为标引前的索引款目,它包含索引员添加的各种特殊符号,这些符号经过系统识别处理后可以产生右图的索引输出格式。因此,在使用Macrex前要对其各种特殊标记符号的意义有所了解。例如:^Computer Terminology: a study^表示以斜体格式输出\lamps\, electric表示electric是lamps的副标目。图1 Macrexversion 8操作界面
图2 Macrex产生的索引示例
3 Cindex
Cindex[4]是由位于美国纽约州罗切斯特市的Indexing Research于上世纪80年代研发并不断维护更新的。它从Cindex for Windowsversion 1版本以后开始适用于Windows操作系统。Cindex既可以帮助索引员快速准确地为图书、报纸、杂志等文献编制索引,又可以用于编制术语表和主题索引表,适用于图书馆员、编辑等相关专业人员。另外,在Yahoo网站上还成立了一个讨论小组,该小组专门为索引员提供技术支持并允许索引员对软件使用过程中遇到的问题进行讨论。
图3是Cindex2.0的操作界面。图中可以看到Cindex主要以“卡片”形式添加款目,添加的索引款目直接显示在“卡片”上方的预览视图中,图3显示的是草稿视图(DraftView)。在Cindex提供的视图类型中,还有格式化视图(Full Format View)、摘要视图(Summary View)和非格式化视图(Unformatted View)。与Macrex相较而言,索引员在使用Cindex时不需要学习各种的特殊字符的限定意义,而是通过一些符合Windows或Macintosh界面风格的简单的操作界面来设置索引的格式,索引员可以直接通过点击鼠标达到目的。
图3 CINDEX操作界面
4 TEXtract
TEXtract[5]是由TEXYZ索引软件公司开发的半自动索引软件。该软件支持PDF和TXT文本格式。跟Macrex和Cindex软件不同,TEXtract能够在索引过程中显示文档,并允许用户在文档中随意跳转,对预生成的索引款目进行编辑。TEXtract有IndexView(图4)和ContextView(图5)两个界面,前者显示索引款目的状态,包括出现的频次、权重、地址等,后者显示处理后的原文文本供索引员参考。
TExtract减少了索引员的工作量,它允许索引员对计算机自动抽词结果进行筛选和校对的功能充分体现了人机结合的索引编制过程,大大提高了索引编制的效率。
索引员选定待处理的文本以后,系统会自动分析文本的页码以及每一页的文本内容,对其切词并统计词频,将结果显示在IndexView中,其中,“+”列允许标引人员对切词结果进行筛选,“f”列表示关键词的词频,“s”列显示关键词的重要程度,“index term”列表示关键词,双击即可编辑,“c”列指示状态,“p”列表示关键词在文中的出现的页码数和顺序,“page references”则表示关键词在文中的页码。窗体的右下角提供预览索引的功能。
ContextView操作界面将作为标目的关键词通过不同的颜色进行区分,用户可以在原文文本中的关键词之间跳转并修改,修改结果会自动保存到IndexView中,两个操作界面保持了很强的交互。
图4 TEXtractIndexView操作界面
图5 ContextView的操作界面
5 内含索引功能的文字处理软件
内含索引功能的文字处理软件只能依托于文字处理软件使用,如目前市场上广泛使用的DEXter(for Word)、emDEX(for FrameMaker)、IndexAssistant(for Word)、IXgen(for FrameMaker)等软件。
以DEXter为例[6],它是针对Word索引功能存在的缺陷而在其基础上开发的。其主要特点是:索引员不必输入、编辑或和Word中复杂的“XE”域标记打交道;索引员可以直接选择文档的起始范围;索引款目显示在一个可编辑、可排序的表格中,解决了索引员在利用Word编制索引的过程中无法即时预览索引结果的问题(如图6);用户直接在表格中(如图7)对索引款目进行编辑、添加等,而不像在Word中在单独的窗体中对索引款目进行编辑。主标目可以进行Word-by-Word或Letter-by- Letter排序,副标目还可按照页码或字顺排序。对于in、by、of等介词在排序的过程中可以忽略。
图6 DEXter的索引款目界面图7 DEXTer的索引显示界面
6 国外索引软件的功能比较
国外上述索引工具从不同角度满足了索引编制的需求,Macrex、Cindex等索引软件更是以飞快的速度对功能进行更新和完善,其技术目前已经非常成熟并具有相当广泛的用户人群。因此,本文希望能够通过对国外索引软件的功能进行比较,从而取其精华,为中文图书内容索引软件的开发提供借鉴。
表1 国外索引工具的功能比较
功能 | Macrex | CIndex | Textract | DEXter |
显示原文 | 不支持 | 不支持 | 支持 | 支持 |
格式识别 | 不限 | 不限 | PDF文件,TXT文件 | DOC文件 |
添加款目 | 手动输入 | 手工输入 | 在对原文抽词标引的基础上添加 | 表格中添加标目 |
添加页码 | 手动输入 | 手动输入 | 自动获取 | 自动获取 |
批量标引 | 不支持 | 支持 | 不支持 | 支持 |
自动标引 | 不支持 | 不支持 | 人工标引结合自动抽词标引 | 不支持 |
参照 | ^符号添加 | Page字段添加 | 手动添加 | 手动、自动添加 |
预览结果 | 支持 | 支持 | 支持 | 支持 |
7 对国内索引软件的思考
通过分析可知,国外的索引软件主要还是由人工来完成标引工作。即使是实现了半自动标引的TEXtract,也需要由索引员在自动切词和词频统计的基础上对索引款目进行编辑和修改。而使用最为广泛的Macrex和Cindex更是完全由索引员手工输入款目词,由索引软件来实现款目的排序、格式设置等机械劳动。
国内目前使用的索引软件主要是“索引之星”和Word内嵌的索引模块。其中,在格式识别上,“索引之星”能够识别多种格式的电子文本,它允许索引员在原文上进行钩标,并自动获取地址。Word的索引功能只能为doc、rtf等Word可识别的文献编制索引,在格式上受到一定限制。功能上,这两款索引软件都有一定的欠缺,例如在添加索引款目的时候,“索引之星”只能钩标当页的款目词,而Word则是通过复杂的XE域代码进行标记,索引员不能及时预览索引结果等。关于两款软件的功能特点,可以参见孙琳的《索引之星与Word索引软件的比较》一文[7]。使用上,由于微软Office软件的普及,多数用户都安装了Word软件,因此其索引功能的使用率也较高。更新频率上,“索引之星”自开发后几乎没有升级版本,而Word虽然跟随Office更新换代,但其索引功能变动并不大。国内两款索引软件的更新频率,恰恰从侧面说明了我国索引工作受重视程度不够。
通过借鉴国外索引软件的成功经验,笔者认为我国的索引软件至少可以从以下几个方面得到突破:
(1)完善计算机在款目排序、格式设置、索引生成方面的功能。
我们可以借鉴Macrex和Cindex软件完全由索引员来确定并输入索引款目的方法,集中力量开发计算机在款目排序、格式设置、款目生成等非智力型工作上的功能。
目前电子文档格式的多样化决定了我们不可能解析所有的文档结构。即使是能够显示PDF和TXT文本的TExtract,也只是通过将文档内容转化为文本的方式来进行处理,而原文的图表结构则无法保留。因此我们应该充分利用计算机来对款目进行排序、设置款目的格式、生成各种索引等,从而为索引员尽可能提供最大便利。
(2) 从索引员的需求出发,提高软件在索引编制过程中的灵活性。
充分了解中国索引员利用软件编制索引的需求,能够针对各种不同文献的特点和不同索引的特点来开发和设计索引软件。允许部分索引员通过试用索引软件来对其功能进行完善。
(3) 可以考虑采用自动抽词标引、人工审核的方式。
尝试使用计算机进行自动抽词并统计词频,然后由人工来对抽词的结果进行审核。对不同专业的文献,应该允许索引员自行导入该专业或与待标引文献密切相关的分词词表,以提高切词准确性。
(4) 建立讨论小组为索引员提供交流平台。
通过讨论小组,索引员可以对使用软件过程中遇到的问题进行交流,并安排专业人士对软件提供一定的技术支持。同时,这个平台也为开发者定期收集索引员在使用过程中不断产生的新需求创造了条件,以便不断对软件功能进行完善,保持索引软件的强大生命力。
参考文献
1 American Society of Indexers.Softwaretools for indexing. [EB/OL] .http://www.asindexing.org/ site/software.shtml.[2007-10-30]
2 MACREX INDEXING PROGRAM.[EB/OL].http://www.macrex.com/. [2008-6-2]
3 Description of MACREX.[EB/OL].http://www.macrex.com/desc.htm#applications. [2008-6-2]
4 Overview.[EB/OL].http://indexres.com/soft.php. [2008-6-1]
5 TheBack-of-Book Index Creation System――Semi-Automatic Indexing for Quality-Conscious Indexers and Authors.[EB/OL].http://www.texyz.com/textract/. [2008-6-1]
6 TheEditorium.[EB/OL].http://www.editorium.com/DEXter.htm.[2008-6-1]
7 孙琳.索引之星与Word索引软件的比较.中国索引,2006(4):6-11
康 艳 硕士,中国电信集团号百信息服务有限公司数据信息中心工作。