利用信息组织技术编制书刊索引探析(孙 辉)
发布时间:2018-09-26  浏览次数:32

利用信息组织技术编制书刊索引探析

 

孙 辉

(中国社会科学院当代中国研究所信息中心 100009

 

     分析传统书刊索引的知识揭示和定位功能,指出利用信息组织技术编制书刊索引可提高索引的质量和效率,保证丛书索引的一致性,并为复合出版的知识服务打下基础。基于上述思路,通过原型系统对国史领域的丛书索引进行实践。

关键词   书刊索引 信息组织技术 主题词表

 

Analysis of the use of information organization technology to compile books and periodicals content Index

Sun  Hui 

(Information Center of the Institute of Contemporary China StudiesChinese Academy of Social Science, 100009)

 

Abstract This paper analyzes the knowledge reveals and positioning function of the traditional books and Periodicals Index. The use of information organization technology to compile books and periodicals content Index can improve the quality, efficiency and consistency of the index. Based on the above ideas, this paper designed a prototype system.

Keywords  content index,  information organization technology,  thesaurus

 

索引是知识组织的工具。通过索引有系统地揭示各类文献的内容,将分散记载于大量文献中的知识初步地组织起来,以方便检索。[1]过去,由于我国学术规范和评价体系不完善,图书期刊的索引编制不被重视。2012新闻出版总署提出按照国家最高学术出版的标准,探讨建立一套科学、完善、规范的学术出版评价体系。我们将在中国出版政府奖、国家出版基金和“三个一百”原创出版工程的评审标准中增加一条:凡是索引、注释不规范的图书一律取消评审资格。[2]

本文基于国家标准《索引编制规则(总则)》GB/T 224662008[3],结合信息组织技术,就计算机辅助书刊索引编制进行研究和实践,主要探析以下几个问题:

1)索引的本质是什么?信息时代,全文检索和数据库能否代替书刊索引,书刊索引是否有必要存在;

2)信息组织技术是如何支撑书刊索引编制的;

3)实现书刊索引编制需要解决的实际问题有哪些以及如何实现。

    基于上述探析,本文通过原型系统进行《中华人民共和国史编年》清样的索引编制实践。

书刊索引的知识揭示和定位功能

 书刊索引,一般指文后索引,是以某一部文献的内容为标引对象,并附在该书末尾的文献内容索引。其功能主要是简便查询过程,加快定位知识单元所在的文献或文献中的位置,其过程是对文献进行知识层次的解构和重构,方便用户将某一知识单元的文献或文献片段聚合在一起。在信息技术高度发达的今天,数字出版的技术和形式层出不穷,传统书刊出版不断受到挑战。书刊索引作为一项繁琐的劳动更加被忽视,人们认为,既然能够实现全文检索,何必需要文献内容索引。在全文检索系统中,索引也是不可缺少的部件,其过程一般是通过分词词典对全部文本进行切分,对切分后的词语建立索引(或建立单字索引),其索引结构为“索引词+位置序列”——类似印刷版的书后索引,“位置”表示为该词汇在文献中的字符串位置,而书后索引的“位置”表示该词语所在的“页码”。另外,索引也是所有数据库系统不可或缺的部件,其索引结构也为“索引词+位置序列”,此处的“位置”是指数据库中的记录号。离开索引技术,数据库系统是不能实现高效检索的。因此,传统索引的原理是建立全文检索和数据库检索的基础。与全文检索不同的,书刊索引中的索引标目(索引项)是经过专业人士精心挑选出来,全文检索中“索引标目”指文本中的所有词汇,是“大数据”,此处的“大数据”不能提供关键信息,无法主动推送文献主题信息,用户只能通过不断检索来尝试定位重要知识单元。

复合出版更加强调“内容与内容之间的关联”[4],突出出版的知识服务功能,索引作为知识单元的组合引擎,在包括传统出版在内的所有出版形式中都是不可或缺的要素,现有的传统书刊出版中的索引可以为该作品的复合出版提供知识服务入口,已经出版的书刊索引可以为复合出版中建立统一的学科知识组织标准提供知识积累。此外,尽管数字出版模式出现多样化趋势,学术类书刊因其阅读深度,暂时不能告别传统出版,书刊索引作为知识揭示的关键手段,有着不可替代的重要作用。

信息组织技术与书刊索引编制

 机编索引软件利用信息技术辅助书刊索引生成。孙琳[5]对国内外索引软件尤其是国内索引之星软件和Word索引功能进行对比,认为当前的索引软件存在以下不足:支持多种类型的索引,支持多种文本类型,排序的多样性和准确性,自动编配参照系统以及实现概念标引等。本文认为,上述软件最大的缺点是不能重复利用已经出版的书刊索引的成果,对于同一套丛书,可能造成前后索引选词考量不统一的问题。已经出版的书刊索引是对文献的知识揭示,包含了索引工作者的智慧和汗水,如果仅仅作为一次性成果,难免可惜,也不利于丛书的统一性和完整性。信息组织即信息的有序化与优质化,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和排序,实现无序信息流向有序信息流的转换,从而使信息集合达到科学组合实现有效流通,促进用户对信息的有效获取和利用。书刊索引是印刷时代的一种信息组织方式,手工编制的书刊索引,在索引项选择、参照设定、页面摘录和合并等方面存在随意性和一定的差错率。利用信息组织技术中的主题词表技术和数据库技术可以提高书刊索引编制的质量和效率,并保证丛书索引的一致性和完整性。

2.1 基于概念组织索引款目

在书刊索引中,要求意义相同的标目统一合并为一个统一标目,统一标目尽量选用规范表达的词语,其他同义词虽然可以作为标目,但其后不包括页码,通过“见”项指向统一标目;在有紧密内在联系的标目之间,如果存在等级关系,可通过设立副标目次副标目的方式来体现这种关系,如果存在其他关联关系,可通过参照标目“参见”其所关联的标目。在信息组织技术中,主题词表是规范的信息描述语言,它主要反映了两方面的关系,一是同一概念的规范语言与自然语言的关系,即主题词与入口词的关系;二是不同概念之间的属种关系和参照关系。可以看出,主题词表与书刊索引在概念的组织和表达方面具有一致性。

 

主题词表与书刊索引的概念组织比较

 

同义关系

等级关系

参照关系

主题词表

主题词与入口词

“属”“分”关系

“参”关系

书刊索引

标目之间的单纯参照“见”

标目和副标目、次副标目

参照标目

 

学科主题词表包含了本学科重要术语,通过主题词表中的词汇标引书刊,可获得索引初稿;人工根据书刊索引初稿进行标目补充,再将补充的标目词汇增加到主题词表中以供后续标引。通过这种迭代方式丰富的主题词表,可继续用于同类学科书刊的索引编制,体现了学术用语的规范性,也有利于同一套丛书索引的统一性和完整性。此外主题词表可作为索引款目关系的标准,有助于构造索引款目的参照关系和排序等。

2.2 通过文本标注定位索引位置

    文本标注用于定位词语在文献中位置,使用的是中文分词技术,一般采用的基于切分词表的词语切分方法,切分词表包含上述主题词表中所有的主题词和入口词。文本标注时采用的类似XML的语言,可转换成排版标记语言,便于在校样中突出显示,方便索引校对;由于索引标记是嵌入在小样文件中的,索引页码也由排版软件即时生成。这种手段改变了传统索引流程。传统索引流程中,为了保证页码的确定性,索引工作是在书刊的最后校样上进行的,索引因校对次数少而不能保证质量,整个出版进程也不可控。通过文本标注定位索引的方法支持用户从初稿开始进行索引工作,用户在排版周期的任何校次上都可以核对和修改索引项,编辑可以在出版初期获得索引初稿,便于计算索引密度,把握索引篇幅,这样既保证了索引的高质量和完整性,也保证了出版进度和出版成本的可控性。

2.3 基于数据库自动生成索引

    通过文本标注获得索引标目的位置信息,还需要进行款目合并、款目等级定位、款目参照(“见”“参见”)关联、页码合并、款目排序等过程才能生成索引。由于主题词表本身是以数据库形式存储,文本标注后的索引标目与位置关系也以数据库形式存储,将两表进行对照,根据主题词表的概念关系调整索引表中的记录,将同一款目的页码合并到一个记录中,如果存在同义关系,只在主题词款目下呈列页码,入口词款目后跟“见”项,指向主题词;如果存在等级关系,则输出时,按副标目处理;对于连续页码,通过排序算法进行合并;最后利用数据库技术对索引款目进行排序。这样生成的索引基本符合出版需求。

利用信息组织技术编制书刊索引实践

将主题词表作为索引软件的核心部件,围绕主题词表进行索引项标注、索引生成等工作,同时,将人工增补的索引项添加到主题词表中并建立词语关联,用于后续丛书标引。基于上述思路,本文设计了基于主题词表辅助索引方案并实现原型系统。方案包括如下三大模块。

3.1 主题词表模块

主题词表是实现“专门标引”、“索引标目分层”、“支持‘见’参照”的数据基础,它是实现《索引编制规则(总则)》“7专有名词的标目选择和形式”要求不可缺少的部件。主题词表设计时要注意以下问题:

1)主题词的层级关系,即上下位关系。这里的上下位关系可以是“is-a-kind-of”或“is-a-part-of”。如在机构主题词表中,“中国共产党”是“中国共产党中央委员会”的上位词,等级关系一般不超过三级。

2)同一主题概念的不同表达,即同义关系,主题词表将常用的惯称作为主题词,其余同义称谓(包括全称)都以别称表示,一个概念只有一个主题词,但可以有许多别称。例如,

 

主题词表样例

主题词

别称1

别称2

别称3

别称4

别称5

中国共产党中央监察委员会

中央监察委

中共中央监察委

中央监委

中央监察委员会

中监委

 

    (3)同形异义现象,即不同的概念却有相同的自然语言表达,如“王力”可指“王力(语言学家)”或“王力(文革)”,设计时分别用“王力(语言学家)”或“王力(文革)”这两种词语作为主题词以代表不同的人,这两个主题词的别称都是“王力”。

    (4)主题词类型。多类型的主题词表可以支持综合索引和专门索引。

主题词表模块包含以下功能:

1)主题词表导入

主题词表导入功能即将指定格式的词表文件导入到某主题词表中。指定格式可以是EXCELXML或其他。

2)主题词表查重和约束检查

查重包括检查该词汇是否收录到主题词表中,约束检查包括同义约束检查和等级关系约束检查。同义约束检查主要保证所有概念的主题词不能相同,即概念和主题词之间是1:1关系;为支持自然语言的丰富性,主题词与其别称可以是1:n关系,例如上述同形异义词。等级约束检查防止概念之间出现父子循环,即不允许“A”的上位概念是“B”,“B”的上位概念是“C”,“C”的上位概念却为“A”,即“ABCA”。

4)主题词表编辑

编辑功能提供编辑界面,修改或补充主题词表的层级关系和同义关系,以及重新选择某个词汇为主题词。

5)主题词表导出

将主题词表导出成常见文本或EXCEL格式,体现层级关系和同义关系。不同类型的主题词可分别导出,行成专门词表,供专门索引时文本标注。

3.2  文本标注模块

文本标注模块的功能利用主题词表中的词汇对方正小样文件进行标注。语义标注的词汇包含某主题词表中所有词汇(含非主题词),标注标记可自行定义。输出文件包括“标注后的小样文件”“包含词汇”“未包含词汇”。鉴于书刊的排版软件一般都是方正,本文采用的标记与方正标记符号规则一致。

文本标注的目的有两个,一是支持索引页码即时生成,即与方正系统衔接,在索引项文字后面重复该索引项文本并用标记符号注明;二是支持预览结果,即将索引项文字本身用标记符号注明,在显示时将该标记符号替换成格式符号,如下划线、着重符等,方便用户在各次校样中进行校对,对不同的专门索引,其索引项采用不同标记。

在综合索引时,文本标注所用的词表是主题词表总表,在专门索引时,需将主题词表按类型拆分成各专门表。需要注意的是,同一张表中的词汇采用大词标注原则,所以同一表中有包含关系的词汇不会重复标注。但专门索引时,不同表是多次标注,会有嵌套现象。例如,

“〖RM(〗邓小平〖RM)〗〖RM+〗邓小平〖RM+)〗在会议上作报告指出,要坚决保证〖HY(〗〖DM(〗武昌〖DM)〗〖DM+〗武昌〖DM+)〗会议〖HY)〗〖HY+〗武昌会议〖HY+)〗决定的四个主要指标”

本例给出“会议”与“地名”嵌套时的标记形式。本例对人名“邓小平”、地名“武昌”、会议名“武昌会议”进行标引,“〖RM(〗〖RM)〗”“〖DM(〗〖DM)〗”“〖HY(〗〖HY)〗”经格式标记替换后分别支持预览结果;“〖RM+〗〖RM+)〗”“〖DM+〗〖DM+)〗”“〖HY+〗〖HY+)〗”经格式替换后分别支持索引即时生成,这个功能借助了方正排版的索引生成模块,生成的索引页码是随版式自动调整的。

下图分别为文本标注界面和生成的预览结果样例。

1  文本标注界面

 

2  预览结果示例

3.3 索引整理输出模块

经过语义标注和人工校对后,借助方正系统生成的索引文件初稿小样(文本文件),需经过索引整理输出模块加工后,再生成符合标准的索引文件。索引初稿小样包含标目和页码两部分,标目覆盖主题词及其同义词。

索引初稿小样首先被导入数据库,记录包括索引标目和页码两个字段。索引整理输出模块对照主题词表对索引初稿中的标目进行定位,对于主题词,确定其上位词;对于非主题词,建立其与主题词的“见”参照关系,并合并其页码到主题词下。该模块将合并后的页码连排转换为习惯的起止页码形式。

下图为索引整理输出界面。

3  索引整理输出界面

原型系统经《中华人民共和国史编年》(1960卷——1963卷)四卷400万字试验,已实现了如下功能:

1)支持综合索引和专门索引;

2)支持全部标引;

3)支持索引标目分层

4)支持“见”参照

5)支持预览结果

6)支持索引款目排序

7)支持页面合并。

生成的索引文本样例如下:

生成的索引文本(样例)

讨论

4.1 主题词表的知识来源

        利用信息组织技术编制书刊索引,无论是文本标注模块还是索引整理输出模块都要用到主题词表,可以说,主题词表是该系统的核心部件。主题词表的知识是不断迭代生成的,最初的知识来源于学科主题词表、工具书,在实际文本标注后,用户会发现新索引项,这些新的索引项被添加到主题词表中并建立相关关联关系,等校样完成后,索引款目基本定型,可以随时输出索引。本文探索的是国史领域本身没有主题词表,本文通过人物名录、职官志、百科辞典等工具书以及四卷本的《中华人民共和国史编年》校对,共获得收集人名概念3063个,涉及3158人物名称;收集地名概念1610个,涉及2188个地点;国家机构2396个,涉及3898个机构名称。

4.2 索引编制与排版软件的关系

书刊索引的编制软件是寄生在出版软件之上的,一是借助排版软件即时生成索引,二是借助排版软件在校样中凸显索引项,便于在任何校次的校样中检查索引项。因此基于主题词表索引编制应该成为排版软件的一个功能,而不应该另起炉灶。本文当前是对方正小样文件进行处理,再通过方正排版预览效果。经多次试验,索引项采用下划线或着重符时,对版式影响比较小,但还是有个别地方影响版式,期待排版软件公司能关注这方面需求,在设计时兼容此类功能。

4.3 索引编制是人机结合的工作

索引编制是人机结合的工作。本系统支持抽词标引,对于赋词标引,需人工进行。赋词标引后的索引项应该加入到主题词表中,供后续的索引整理输出。此外,在文本标注模块,由于机器的智能有限,单纯的文本标注容易出现的切分错误、漏标和歧义标注。切分错误举例如下:对“交通运输部门”标注出“交通运输部”;对“大兴调查之风”标注出地名“大兴”,对“我们曾三次建议谈判解决”一词标注出“曾三”人名。漏标漏标的原因有二,一是词表收词不全,二是部分概念无法通过抽词匹配。另外,文本中的自然语言有一定随意性,不是用固定的字符表示,造成无法机器匹配。例如“交通、公安两部”“我委、部同意人民、文学、美术、世界知识、中国青年、中国少年儿童、音乐、体育、商务和上海的人民、文艺、美术、少年儿童等13个出版社与兄弟国家相近性质的出版社”,此处机构都是以不完整的词汇出现,无法直接抽词标注。由于机器标注暂不考虑语法分析,故出现歧义标注。例如“邓小平同新西兰共产党代表团团长、中央政治局委员麦卡拉会谈”,此处的“中央政治局”如抽出,在文后索引中会与“中共中央政治局”页码汇合。另外,在主题词表构建过程中,概念之间的等级关系和同义关系也需要领域专家的审定。这些问题都说明,机器是索引编制的辅助工具,人工参与是不可缺少的环节。

 

参考文献

《中国索引》编辑部索引工作的性质与索引工作者劳动的性质中国索引,20043 :2-3

北青网第三届国家原创出版工程公布入围名单 新闻出版总署副署长邬书林称——图书索引不规范不得参评政府奖北京青年报,2011-12-28: B11

侯汉清.索引编制手册——基于GB/T 224662008索引编制规则.北京:中国质检出版社, 2012

左健,孙辉.复合出版与传统出版社数字化转型.中国出版,2010(4):44-47

孙琳索引之星与Word索引软件的比较.中国索引, 2006(6):6-11

 

孙辉  女,1971年生,中国社会科学院当代中国研究所信息中心副编审。