索引与数据库漫笔(连载) 张琪玉
发布时间:2018-09-25  浏览次数:11

・索引与数据库漫笔・

索引与数据库漫笔(连载)

(南京政治学院上海分院军事信息管理系  200433)

23  计算机排序还不能完全自动化

    索引款目汉语拼音排序法有多种排序方法,最完善的排序方法是字字相比。先比标目第一个汉字的音节,音节相同时,将同一汉字集中,依各汉字的部首或笔画或其他顺序来决定次序;第一个汉字相同的标目,再依其第二个汉字排比次序,以此类推。

利用计算机进行自动排序,大体符合以上字字相比的排序规则,但不是完完全全符合,需要对排序结果稍作调整和补充。包括下列几个方面:

(1) 由于汉字标准编码字符集是分为常用汉字和非常用汉字两个部分(约各占一半)进行编码的,常用汉字部分依汉语拼音顺序编码,非常用汉字部分依部首和笔画顺序编码,所以,自动排序的结果会出现有极少量非常用汉字开头的索引款目,脱离汉语拼音顺序排在最后(不超过百分之一,有时一条也没有),输出前应进行调整。否则,按汉语拼音顺序,这些索引款目可能就查不到了。

在依第二个汉字排序时也会出现此问题,因相同汉字开头的款目不会很多,故影响不大,可不予调整。但若相同汉字开头的款目特别多时,也应进行调整。例如在著者索引中,姓王的著者可能有上百人,而名的第一个字使用非常用字的又较多,此时对脱离汉字拼音顺序的款目也需进行调整。

(2) 有些索引款目的标目带有书名号和引号,按其编码也会脱离正常的汉语拼音序列排在整个索引的最前面,若对索引的质量要求较高,是应该调整的。

(3) 汉字有不少一字多声和一字多音。一字多声对查检不会有影响,但一字多音对查检会产生影响。例如,收藏的“藏”读c�ng,藏族的“藏”读z�ng,但汉字标准编码只编1856,照正确读音查“藏族”、“藏语”、“藏医”、“藏药”、“藏花”等时会查不到。所以,必须在z�ng处设一单纯参照“z�ng藏见c�ng藏”,指引读者到c�ng处查找。但是,这种情况较难发现,索引编制时往往会遗漏。

(4) 数字或字母开头的索引款目,自动排序时是排在整个索引最前面的。但按我国的惯例,则应排在最后。从严格质量要求看,也是应调整的。或许,在计算机文字处理普遍使用的今天,不宜继续强调这一惯例了。

(5) 若索引款目使用“()”、“-”、“,”等符号(大写或小写),索引惯用顺序与中外文编码均不一致,若用这些符号,须作人工调整(简单索引不用这些符号)

(6) 索引中需要安插助检标志(索引款目开头的字母或音节),计算机也不可能自动生成,须由人工插入。

24  楼市索引的结构设计分析

《新民晚报》2006419-21日刊出“上海楼市地理索引”和“上海楼市  户型索引”,并注明这是一种“楼市黄页看楼指南”。

“关键词”本是索引学术语,当今在报端频频出现,已演变成一个普通词语,为广大群众所接受。

“索引”一词似乎也有这种趋向,“楼市索引”的用法正好说明了这种趋向。不过,楼市索引毕竟是索引原理的一种扩大应用,所以我们姑且把它作为一种索引来看待。它一方面是一种宣传报道形式,具有创新的意味。但从另一方面看,觉得这个索引的编者并不了解索引的真谛。下面试作些分析:

“上海楼市地理索引”的索引项目是:

  市区名称  楼盘名称  售楼电话  楼盘地址

“上海楼市户型索引”的索引项目是:

  市区名称  楼盘名称  售楼电话  户型(住房面积和间数)

由此可知:

(1) 两种索引有三项的内容和次序是完全相同重复的,只有最后一项不同。结果,使用地理索引时,不知道楼盘的户型情况;使用户型索引时,不知道楼盘的地址。若在地理索引中增加户型一项,查一个索引就可获得全面信息,不但可方便一些,也消除了徒占篇幅的不必要重复。

(2) 编制户型索引的想法是正确的,但应把户型放在最前,并且按户型排序,这样才便于按户型进行查检和比较、选择。

(3) 地理索引是便于首先考虑买什么地址的住房,户型索引是便于首先考虑买什么户型的住房。两个索引各满足不同的主要需求。所以:

地理索引项目应是:市区名称  楼盘地址  楼盘名称  户型  售楼电话

户型索引项目应是:户型  市区名称  楼盘名称  楼盘地址  售楼电话

(户型中面积和住房间数以住房间数在前,面积在后为好)

(4) 若要压缩户型索引的篇幅,可以:在地理索引的每个索引条目之前加序号;在户型索引中只设户型、市区名称和楼盘序号。

这样,就可发挥两个索引的最大功能。

 

张琪玉  南京政治学院上海分院军事信息管理系教授,中国索引学会副理事长。