《中国图书馆分类法》索引编制技术的演变
——评《中国图书馆分类法》第2、3、4版索引
李 华 徐青青
(江苏省昆山中学图书馆 昆山215300)
摘 要 本文通过对《中图法》第2~4版索引编制技术的比较,总结了分类法索引的编制从单一技术到多种技术相结合、从纯手工编制到计算机编制逐渐演变的发展趋势,论述了用计算机编制索引的优越性。
关键词 《中国图书馆分类法》索引 分类法索引
《中国图书馆分类法》(原名《中国图书馆图书分类法》,以下简称《中图法》)是我国图书馆和情报单位普遍使用的一部综合性的分类法。它主要从科学知识分类的角度揭示文献内容的区别与联系,按学科和专业集中文献,提供从学科和专业出发检索文献的途径。而分类法索引则是一种从类目概念指向分类号的检索工具,为用户提供一条按字顺查找、利用分类表和分类目录的途径[1]。1975年第一版没有配备索引,第二版和第四版都配备了索引[2-4],第三版虽然没有编制专门的索引,但《中国分类主题词表》的第二卷《主题词—分类号对应表》也可看作《中图法》(第三版)类目的相关索引,本文将其视为《中图法》(第三版)的索引来进行讨论。 本文从索引编制技术的角度对这三部索引进行比较,从而论述索引编制技术对索引性能的影响。
1 索引类型
分类法索引有直接索引、相关索引、叙词表式索引、关键词式索引及链式索引等几种类型。
直接索引只是把类名及注释中的表示主题概念的语词取作索引标目,一般都不设置倒置标题或副标题。它编制简单但质量较差,不便于查找按学科分散的相关主题,所以现在已很少使用。
相关索引是针对直接索引的缺点发展起来的,通常按标题法的原理编制,通过设置副标题、倒置标题、说明语等增加聚类功能,提高检索效率,目前被广泛使用[5]。二版索引正是属于标题词型的类目相关索引。例:
池沼地(农田基本建设) S286
出血
—病理过程
R364.1+3
—外科急救治疗
R605.12
—外科手术处理
R619+1
,产后
R714.46+1
,结模
R777.39
,颅内,新生儿
R722.15+1
,脑
R743.3
,内脏,新生儿
R722.15+3
,胃肠道,新生儿
R722.15+2
,新生儿
R722.15
,蛛网膜下腔
R743.7
三版索引属于叙词表式索引。这种索引是一种基于分类表与叙词表之间的密切对应关系而研制的索引,索引的款目增加了用、代、属、分、参等项参照,加强了词间关系的显示[5],从而使得它具有了主题标引和检索的功能,而不仅仅只是分类法的辅助部分。该表以《中国分类主题词表》的字顺表为主体,增加了大量以相交、限定等组配方式组配而成的主题词串,将《中图法》(第三版)的全部分类号置于相应的主题词或主题词串下。例:
化害为利
Y 废物综合利用
化合价
O6-041
D 氧化物
原子价
Z 化学性质
C 亲合力
C 氧化态
工业照明-安全措施:卫生措施
R136.2
四版索引采用了将链式索引与题内关键词索引(KWIC)结合起来用计算机编制的方法,为分类法索引的编制提供了一条全新的思路。链式索引法是印度图书馆学家阮冈纳赞在其分类理论的基础上研究成功的一种编制索引的方法,是一种通过对类链的分析而择取索引标目、编制索引的技术[5]。它利用了类目与主题词之间的对应关系,在字顺序列中再现了分类体系,对任何文献都同时提供了从概括主题和专指主题进行检索的途径,增加了检索入口,在检全率及易用性方面有着相关索引无法比拟的优势。同时,由于链式索引法可以半机械地从分类表的类链上择取索引款目,操作简单,使索引的计算机编制成为可能。题内关键词索引的款目由关键词、上下文及地址(即分类号)三部分组成。传统的题内关键词索引将关键词连同其上下文一起实行循环轮排,或移头接尾或移尾接头,把每一个关键词轮排到检索入口的位置,如果题名超过规定的长度,可以截断[5]。这使得题名的完整性得不到保证,从而降低了款目的可读性。四版索引为了克服这一缺点,在款目格式上不实行移头接尾或移尾接头,也不实行截断,从而保证了标目的完整性及可读性。例如:
检索入口
觇标P212+.1
混凝
土及混凝土制品
掺合料TU528.041
掺和料(水工材料)TV42+3
复合化学
掺和料(水工材料)TV42+3
参见TU528.041
掺和料和外加剂制品(铁路线路)U214.1+8
2 索引编制方法
二版索引是武汉大学图书馆学系张琪玉教授与其他多位教师历时一年多编制而成的。该索引收录了《中图法》(第二版)和《资料法》(第二版)这两种分类法中已列出的全部有检索意义的概念。包括:类名所表达的概念、类名的同义词、类目注释中出现的概念、各种复分表中出现的概念及极少数分类法中未出现的概念[1]。其编制步骤包括分析类目及其注释,确定标目,拼接款目,抄成卡片、按字顺进行轮排等,最后排序、校对、定稿。受当时的条件所限(武汉大学图书馆学系是全国开展图书情报现代技术教育最早的单位,但在1981年时尚未有微型计算机设备),索引的所有编制工作都是手工完成,耗时费力。
三版索引是在《中国分类主题词表》第1卷——“分类号-主题词对应表”的基础上作反向对应,由计算机自动生成的,因而三版索引的编制可以说是半自动的。首先列出与类名概念相对应的主题词,然后列出与类目所包含的或注释中列出的概念相对应的主题词[3]。该索引的款目除单个主题词外,还包括了主题词串。与二版和四版索引相比,三版索引一个很显著的特点是罗列出了类目的隐含概念,也就是说,索引里有相当一部分款目是分类法中的类名和注释里所没有列举出来、而编者认为是具有检索意义的。较为典型的是对“其他”类的处理。二版和四版索引都对不含注释的“其他”类进行了舍弃处理,而三版索引则挖掘了许多类表没有穷举的类目隐含概念。这在一定程度上提高了标引深度和检全率,但这是以巨大的人力耗费为代价的,同时也造成了该索引篇幅过长(长达3949页,款目多达21万余条)的缺点。另外,三版索引中手工编列的数目众多的隐含概念其中有相当一部分没有文献保证和用户保证,属冗余款目,在文献检索和标引中实用价值不大。
四版索引是在南京农业大学信息管理系侯汉清教授带领几位学生采用人机合作的方法用三个月时间编制而成的。该索引所选择的索引方法——链式索引法本身就是一种可以半机械地生成索引款目的索引技术,而KWIC则可通过计算机实现充分轮排,再加上计算机技术在各领域的广泛应用,用计算机辅助编制无疑是最佳的选择。索引的范围包括了类名和注释表达的概念、类名的同义词及各种复分表中出现的概念[4]。在四版索引的编制过程中,充分利用了计算机相对于人脑高速、准确的特点,由计算机完成编制过程中大量机械、重复的劳动,而由人工做一些智力型的工作。其编制过程包括以下几个步骤:
(1) 对分类表数据进行手工处理,添加一些专用符号,便于计算机将类名和注释处理成独立、完整、语义明确的主题概念。
(2) 计算机自动生成切词词典。
(3) 用切词词典对已处理过的分类表类目进行自动切分,手工补切。
(4) 计算机自动生成索引款目,并按双向排序法排序。
(5) 计算机辅助编辑、排版,经人工格式校验后激光输出。
下面就相同的类目三个版本的索引由于不同的编制方法分别生成的标目(不考虑款目格式)举一些例子。例:“F40 工业经济理论 工业经济学入此。”二版及四版生成“工业经济理论”及“工业经济学”两条标目,三版生成“工业经济—经济理论”、“工业经济学”、“工程经济学”、“工业社会学”、“工业(经济学)”等五条标目,其中“工业经济—经济理论”是类名概念相对应的主题词,“工业经济学”是注释中的概念相对应的主题词,其他三个则是类目所包含的概念对应的主题词。又例:“T86 各种摄影技术”下的“TB879 其他”二版及四版都做了舍弃处理,而三版除了将其上位类“T86 各种摄影技术”对应的主题词“摄影”与之对应之外,还生成了“变焦摄影”、“弹载摄影”、“多机摄影”、“感热摄影”、“工业摄影”、“光谱摄影”等标目。
3 索引款目结构
索引款目是索引的基本单元,其作用是指引用户识别和查找某一文献或文献库中的具体项目或这些项目中所包含的情报,并通报其确切的地址[5]。索引款目主要包括标目和出处,有时还提供标目的限义词和注释。现就索引的款目构成、款目格式及参照系统三个方面对二、三、四版索引作比较如下:
3.1 款目构成
二版索引
三版索引
四版索引
主标题及参照项
主题词及参照项
检索入口词及上下文
副标题、倒装标题、限定词
主题词串
参照项
分类号
分类号
分类号
3.2 款目格式 款目的格式会直接影响到索引的性能。现将二版各种格式的款目与三版、四版相应的款目作比较如下,①-⑤依次为主标题(正装标题)、主标题加副标题(以“—”为标志)、主标题加词组倒置部分或说明语(以“,”为标志)、主标题(或副标题,或倒置标题)加限定词[以“( )”为标志]、复杂标题。
二版索引
三版索引 四版索引
检索入口
检索入口
检索入口
①季节造林 S725.9季节造林 季节造林
S725.9
S725.9 季节 造林 S725.9
Z 造林
②家禽家禽—饲养管理 家禽饲养管理 S815.5
—饲养管理 S815.5 S815.5 家禽 饲养管理 S815.5
③教育史教育史—中国 中国 教育史 G529⑤
,中国 G529⑤ G529⑤ 中国教育史 G529⑤
④古典主义(艺术流派)古典主义—艺术—流派 古典主义(艺术流派)
J110.99 J110.99 J110.99
⑤感色性感色性(摄影)—感光 感光材料感色性测定
,感光材料—测定材料—感光测定 TQ557.7+4
TQ557.7+4 TQ557.7+4 感光材料 感色性测定TQ557.7+4
通过比较我们不难发现,三个版本中以二版索引的款目格式最为复杂多样,款目格式的一致性及款目的可理解性较差,三版以限定组配(以“—”为标志)为主,而四版索引的款目格式与自然语言最接近,可读性最佳。
3.3 参照系统
参照是索引的重要组成部分,有助于全面、完整地显示索引标目之间的复杂联系[5]。三个版本的索引都配备了各具特色的参照系统。
二版索引的绝大部分索引款目都直接给出了分类号,但为了避免索引款目的过多重复以节省篇幅,同时增加查检途径和字面成族的机会,还是用了大约一千条“见”参照(直接参照)和“查”参照(一般参照)[2]。其中,见参照里既有同义词之间或不同词序之间的参照,也有多音字的参照,而查参照则告知用户使用索引的方法。例:
毒气中毒(军事医学) 见 化学武器中毒
力学 ,生物 见 生物力学
剥(bō) 见 剥(bāo)
衍生物 查 有关化合物
谚语 ,专业 查 有关学科类目
三版索引的参照系统是其一大特色,所有的单个主题词下都建立了包括Y、D、Z、C及等级关系全显示的参照系统。其中“Y”表示正式主题词,用于从非正式主题词指引到正式主题词;“D”表示非正式主题词,用于指明被正式主题词代替的词;“Z”表示族首词,指具有等级关系的一个词族中概念外延最大的主题词;“C”表示相关主题词,即除等同关系和等级关系外,在概念上具有某种密切联系的主题词;“·”为等级符号,“·”的个数表示某个族首词下的词相对于族首词的等级数[3]。例:
国外贸易
Y对外贸易
过渡球
G84⑦
D调整球
过境税 F 745
Z 税
C 过境贸易
环境标准 X-65
环境指数
监测系统
标准烟色图
空气质量标准
废气排放标准
四版索引的参照有两类。一类是多音字参照(用“另见”表示),一类是用于压缩轮排款目的参照(用“”表示)。后一类参照分为两种,一是对于一些通用词或出现频率较高的词,一般不予轮排,为之统配一般参照,指示查找的方法;其二是对于一些非通用词采用见参照,以指引检索入口词[4],消除重复轮排现象。例:
检索入口
剥(bao) 另见 剥(bo)
剥(bo) 另见 剥(bao)
标准此词素不轮排,各种标准
请查其他词素,如化肥标准从化肥查起。
动物 标本动物标本
通过比较可以发现,二版索引中用于指示多音字的“见”参照与四版索引中的“另见”参照作用相同,只是二版索引只做了单向的参照而四版索引做了双向的。二版索引中用于指示同义词和不同词序的“见”参照与三版索引中的“Y”参照作用相同,四版索引则没有编配这种类型的参照,而是直接给出了相应的分类号。三个版本的索引中,以三版索引的参照数量最多,数量众多的参照在给用户的相关检索提供了方便,但同时也使得索引的篇幅大量增加。
4 索引款目排序
三个版本的索引款目都是按照标目的汉语拼音顺序排序的。其中四版索引采用了双向排序法,检索入口词及下文从左向右顺序排列,上文从右向左逆序排列。现将两种排序方法比较如下:
单向排序法 双向排序法
检索入口 检索入口
地下管道TE973.91金属管道U173.1
非金属管道U173.1非金属管道U173.1
固体管道U173.93给水管道TU991.36
给水管道TU991.36输水管道TV672+.2
金属管道U173.1固体管道U173.93
气体管道U173.82气体管道U173.82
输水管道TV672+.2液体管道U173.91参见TU991.36
水下管道P956.2;TE973.92地下管道TE973.91
液体管道U173.91参见TU991.36水下管道P956.2;TE973.92
通过比较可以看出,双向排序法系统性更好,更有利于字面成族,集中相关概念。
5 结语
纵观《中图法》第二至第四版索引的编制过程,我们可以得出一个结论,即分类法索引的编制技术在不断改进和完善,其中包括:由单一技术向多种技术相结合发展,由纯手工编制向计算机的自动化编制发展,采用的检索语言和索引法由标题法、叙词法向关键词法发展。另外,印刷版分类法索引的篇幅也在不断膨胀。 2001年出版的《中图法》第四版电子版和即将面世的《中国分类主题词表》第二版电子版,实际上可以看成是新一版的《中图法》的索引。它综合了前几版索引的各种优点,容量最大,内容最详尽,结构最合理,功能最齐全,检索和使用也最为方便。它已经与分类法、叙词表真正融为一体,成为一种新颖的标引和检索工具。遗憾的是它在编制中未能利用《中图法》第四版索引的技术和数据,致使很多注释包含的概念未能收录,无法检索了。
参考文献
1 侯汉清,王荣授编著.图书馆分类工作手册.北京:中国科学技术出版社,1992
2 张琪玉主编.中国图书馆图书分类法(第二版)索引.北京:书目文献出版社,1984
3 刘湘生主编.中国分类主题词表(2卷6册).北京:华艺出版社,1994
4 侯汉清主编.中国图书馆分类法(第四版)索引.北京:北京图书馆出版社,2000
5 侯汉清著.索引法教程.南京农业大学教材,1993
李 华 1976年生,1999年毕业于南京农业大学信息管理系,曾经参加《中图法》第四版索引的编制,2002年在《图书馆杂志》发表《〈中图法〉(第四版)轮排索引的计算机编制》一文。
徐青青 1977年生,2000年毕业于南京农业大学信息管理系,现在中国银行南京分行工作。