《汉语大词典词目音序索引》的评价和编制
【编者按】 2004年元旦,《新民晚报》刊载了该报记者林伟平写的消息《一位美国教授编纂〈汉语大词典词目音序索引〉检索“三步并两步”》,报道美国汉学家梅维恒教授为方便使用“上个世纪汉语词典学的最重要成果”——《汉语大词典》,竟花整整十年时间,捐助资金、聘请专家并亲自主编了一部《汉语大词典词目音序索引》的事迹。我国著名语言学家周有光先生称赞《汉语大词典词目音序索引》的编纂是“一种技术革新”,它“在中国文化大道上加装新式指路牌和照明灯”,“使《汉语大词典》锦上添花”。(注:《汉语大词典》原来只有单个汉字的拼音索引,没有复词条目的拼音索引,故使用仍不够方便)。此事对我们索引工作者很有启发意义,现特将周有光先生为该索引写的序言和梅维恒教授为该索引写的前言转载于下,以飨读者。
《汉语大词典词目音序索引》序言
周 有 光
中国传统,有字典,没有词典。后来有词典了,可是只有小型词典,没有大型词典。后来有大型词典了,只有现代汉语的大型词典,没有现代汉语和古代汉语综合编辑的大型词典。1986-1994年出版的《汉语大词典》是中国有史以来第一部包罗古今的汉语综合大型词典。
《汉语大词典》开始编辑于1975年,完成于1993年,历时十多年,收词目37万多条,分为12大卷,附索引一卷。编辑原则为“古今兼收,源流并重”。这是上海市、江苏省、山东省、浙江省、安徽省和福建省五省一市400多位资深学者辛勤劳动的成果。在中国文化史上是全新的开创。
编辑汉语词典必然遇到的一大困难是索引问题。一本好词典如果没有好的索引,就好比一条很好的马路没有很好的指路牌和照明灯。《汉语大词典》在传统索引方法上做了改进,但是词典正文按“部首、笔画数、起笔笔形”等多重排序,《索引》中的拼音索引只有单个汉字的拼音,没有词目条文的拼音。这对中国读者仍旧检查不便,对外国读者更是检查困难。中国文化正在走向全球化时代的新世界,词典索引问题将是一个不小的文化交流障碍。
美国著名汉学家梅维恒教授捐助资金,聘请专家给全部词目条文加注拼音,条文一律按字母顺序单一排列,成为这本《汉语大词典词目音序索引》,使《汉语大词典》锦上添花。这件工作,看来似乎是小事,其实做起来要解决不少困难的学术问题,实际是一件探索性的研究工作,绝非轻而易举。这是一种技术革新工作,一种在中国文化大道上加装新式指路牌和照明灯的现代检索技术。这关系到提高中国文化工作的效率问题,而效率是现代文化生活中不可忽视的头等大事。
<<回到目录
《汉语大词典词目音序索引》前言
(美) 梅维恒 (Victor H.Mair)
本书是《汉语大词典》①12卷正文完全按拼音顺序排列的索引。这部工具书能使其使用者依据现代汉语普通话读音快捷地查检到《汉语大词典》提供的每个复词条目②。由于已经出版的《汉语大词典》附卷包含了全部单字条目的音序索引,为了避免重复,本书将不包括这部分词目。
《汉语大词典》是上个世纪汉语词典学的最重要成果。从1975年开始进行组织和编写工作,1986年出版了该书第一卷,至1994年全书出齐,先后参加编纂工作的学者和编辑有400多人。下述统计数据可以说明该书的空前规模:a. 条目总数为370,000条。b. 引文超过1,500,000条。c. 字头(单字)条目约23,000条。对书面汉语及其使用来说,《汉语大词典》最接近于《牛津英语词典》。同时,它又不像诸桥辙次主编的《大汉和辞典》(完成于1955-1960年,修改增补本出版于1984-1986年)以及《中文大辞典》那样庞大。《大汉和辞典》收词约500,000条,其中单字条目49,964条;而《中文大辞典》基本上是《大汉和辞典》的翻译。《汉语大词典》的编纂依据体现语言发展的历史准则。《大汉和辞典》和《中文大辞典》则兼具百科工具书的性质,收录了人名、地名、书名以及对学习、研究文言文有用的各种术语、典故、名言等等。与此不同,《汉语大词典》主要收录单音节和多音节的词,包括书面语和较固定的俗语语词。《汉语大词典》的功用并不限于纪录普通话书面语,而是一个兼收现代、近代和古代汉语词语的综合信息资料库。
《汉语大词典》收录的词条提供了从其最早出现直至20世纪的书证,给出了能表明在两千多年甚至更长时间里语义演变的详尽释义。《汉语大词典》的出版不仅能使学者们查检到汉语语词的各个义项和其最早期例证,而且提供了商代卜辞和周代铜器铭文之后汉语书面语历史的准确而全面的总体图景。《汉语大词典》的主要不足之处是对汉语词根的语源缺乏注意。事实是至今没有任何词典系统地探讨过汉语语词的最初起源问题。实际上,自许慎的《说文解字》(公元100年)问世以来,大多数被视为“语源学”的研究只是对汉字的形体结构、读音和意义的分析解释③。由于大约与《汉语大词典》同时进行的另一项国家项目《汉语大字典》已经收录了54,678个汉字,并且说明这些字的基本构造,《汉语大词典》在收字方面主要收录有书面例证的汉字,也提供关于这些字的本义和引申义的详细信息,不管这些字是黏着字(只能作为词的组成成分的字)还是自由字(本身就具有词的功能的字)。
尽管缺乏真正意义上的词源学探索(也就是指明词根和初始的词法特征),《汉语大词典》所包含的有关单音节和多音节汉语词汇的大量信息还是极其有用的。但是,要获得和利用这部词典的丰富资料并不像乍看起来那样容易。除了ABC系列词典(本索引也是其中的一部分),其余的汉语词典和索引等工具书大抵如此。幸运的是,《汉语大词典》在第13卷即“附录·索引”卷提供了两万多汉字的音序索引。这大大地加快了检索的速度,但人们要查到一个复词词语或条目仍需经过下面的费时步骤:1通过部首索引、笔画索引,或通过第13卷中的音序索引,寻找相关字头即一个复词的首字。2 数要找的词语的第二个字的笔画,然后按笔画从往往数量很多的复词中寻找这个词。假定某人能够正确地计数要找的词语的第二个字的笔画(情况常常并非如此),最后他就能成功地找到这个词。3如果要查的词语多于两个字,则必须重复以上第二步以寻检第三个字,余者类推。当然,第三步通常比第一步、第二步要快,因为三字和三字以上的词语相对数量要少得多。
上述使用《汉语大词典》的方法实际上较之从《大汉和辞典》和《中文大辞典》中寻找词语要快捷得多,查这两部书得花更多的时间。考虑到一个严肃的汉学家在阅读研究一篇古典作品时要查找几十个甚至数以百计的词语时,情况更是如此,由此导致的浪费大量宝贵时间和效率极为低下的现象自然是可以想象的。更遗憾的是,查阅汉语词典的这种令人感到烦恼的现状其实在大多数情况下并不是不可避免的。
通常人们在查找一个汉语词语时,要知道组成这个词语的字的读音的。至少也能大体上正确地猜出其读音。需要了解的是这个词语的整体的意义。当然,有时人们不知道或无法猜对组成一个词语的汉字的读音,在这种情况下,我以为最有效的方法就是从许多现有的小型字典(例如最为普及的《新华字典》)选一种来查一下。至于二音节和三音节以上的词语,几乎连这种需要也极少。因为超过两个音节的词相对来说数量甚少。换句话说,人们可以把查检的范围缩小到正确认读头两个音节上,因为只有为数很少的词语是三音节或三音节以上的。
上面一些段落描述了查检汉语词典的实况,由此可以明显看出,最快捷、简易和有效的检索方法是按照其读音,这恰好与任何其他语言,包括土耳其语、越南语、阿拉伯语、希伯莱语、泰语、藏语、泰米尔语、印地语、日语甚至是久已死亡的语言像古埃及语、阿卡德语和赫梯语的情况一致。这也是本索引所采用的原则。尽管这个原则的正确性屡经实验和实际应用(如ABC系列词典就首次运用了这种排检法)得到证明,但由于人们对汉字的形序排检法的偏爱,推行纯字母顺序的检索方案仍然遇到巨大的阻力。许多有价值的参考书如地名词典、历史百科全书、索引等等使用起来颇不方便,因为它们往往是以形序排检法体系而不是以音序排检法体系编排的④。结果是不少人因查检的困难而望之生畏。
有人想象汉字是视觉形式较之其发音能更直观地体现用汉字书写的词语的意义。实际上,任何词语都是音义的结合体,就表达其意义而言,与传统的因循守旧的看法相反,声音比起形体更利于表达意义。对汉字系统而言,声音较之形体更具优先性,这也为心理语言学家、形态学家和其他专家的细致研究所证实,各个学术领域的有关材料已由德范克作了透彻的阐述,读者可以参阅他的著作《汉语:事实和幻想》(夏威夷大学出版社1984年版)以及《可视语言:文字系统多样性的同一》(夏威夷大学出版社1989年版)。
尽管传统的看法对音序法,特别对单纯的字母顺序编排法抱怀疑态度,为了使《汉语大词典》的检索更简易、快捷和高效,促使我们决定编制本索引。这决不是简单的任务。
在我们的工作中面临以下主要障碍:
1 巨大的规模。
要把12大卷按部首编排的词典的词目重新编成字母顺序,必然产生大量整理和编制程序的问题。所有下面提到的其他问题(有不少问题还未曾提到)都因《汉语大词典》的巨大篇幅而更加增大。
2 僻字。
大多数的计算机字集包括约6,500个汉字。其中3,800个汉字能够覆盖大部分读者日常阅读所遇到的汉字的999%。剩下的2,700个汉字在典型的计算机字集中已属罕见,它们在一般文本中出现的几率低于01%⑤。因此人们可以想象《汉语大词典》中的许多字是如何冷僻和少见。尽管这些字在总数达18,314页的双栏页码中可能只出现一至二次,但在索引的编制和排版中仍然必须顾及。即使是大型的商用计算机字集和特定的软件也很少有超过20,000个汉字的。因此我们必须制作2,500个左右的汉字,占全书所用的23,000个汉字的十分之一以上,并且要将它们安插到我们的排版系统中。这本身就包含着异常巨大的劳动。而且,由于逻辑和技术上的原因,造这些字只能放在工作的最后阶段,即排版阶段。实际上,由于要与排版程序相适应,每一批只能造300个汉字,这像梦魇似地困扰着我们。最后,我们采取了从原来的字库中删去2,500多字而代之以新造字的办法解决了这一难题。⑥。这就意味着在最后排版之前,所有的编辑、分类、储存和校核等等工作使用暂时代替那些不常见的字的占位符号。描述这些符号的确切性质和结构是乏味而且不必要的,在这里只要指出它们是精巧而高速复杂的就足够了。
3 确定正确的读音。
虽然汉字并不像通常的误解那样是表意文字,更不是象形文字,而是词符文字,更确切地说是词素音节文字,但它本身并不能清楚明确地表示出如何发音。这里不必涉及汉字及汉字在无数的方言和次方言里有种种不同读音的问题。要确定用汉字书写的词语的现代汉语普通话读音就是极其困难的,这对于那些不须在日常生活中阅读和书写汉字的人来说简直是无法想象的。许多常用汉字有两个、三个、四个甚至更多不同的读音。我们无须在这里从总体上就各个汉字的多音性进行历史、地域和其他方面的学术研究,但需要指出现代汉语普通话中汉字的不同读音往往表示不同的意义或语法功能。
例如,现代汉语中使用频率最高的字“的”就有三个读音:dí、dì、de。第一个“的”不能单用,而是用在像“的当”、“的确”这样的词里。第二个“的”表示箭靶的中心,在“目的”等词中作为构词成分。至于第三个“的”(有时在汉语拼音中简化为d)是个虚词,构成所有关系、形容词、定语、关系从句和表示强调的“的字结构”(“是…的”)。“的”字的情况还是比较易于理解和说明的。许多其他有不同读音的字则更加含糊甚至带有任意性。例如“堡”可以读作bǎo,bǔ或pù。第一个读音用于“堡垒”等词,堡垒的意思是要塞或在冲要地点作防守用的坚固建筑物,也可以指小城,在这种情况下与用作地名的后一音节的另外两个读音有些重叠。例如“五堡”这个地名究竟是读作Wǔbǎo还是Wǔpù,现今完全取决于当地人的喜好和习惯。
在许多情况下,甚至专家也有习惯性的误读。例如常用词“大乘”(来自梵语Mɑhāyānɑ)和“小乘”(来自梵语Hīnɑyānɑ),人们几乎都读作Dàchéng和Xiǎochéng,即使佛教学者也是如此,而实际上这两个词应该读作Dàshèng和Xiǎoshèng。(读chéng一般是动词用法,意为“乘骑”、“追逐”、“[乘法]运算”等,而shèng一般是名词用法,意为“车子”、“史书”等。)
确定《汉语大词典》所有词目的正确读音是一个艰巨的任务,因为词典本身只提供了复词首字的读音,兼注第二个字和以下各字的读音的条目相当少。必须强调指出,本索引的编制者已尽其所能地提供了每个字的正确读音。还要说明的是,本索引的使用者可以放心,因为汉字单字的读音虽然复杂,但对受过教育的读者来说,需要查检的复词中的99%以上(参看注⑤)的字一般都是认识的,这就使他们能迅速地查到本索引以及《汉语大词典》中要查的词目。
4 正词法。
当构成一个条目的汉字的正确读音确定之后,理想的做法是按照中国政府在1996年作为国家标准公布的《汉语拼音正词法基本规则》(参看《ABC汉英词典》,第835-847页)确当地分词。由于《汉语大词典》收录的条目大多是词,将组成这些词的音节连字是合适的。但是,《汉语大词典》实际收录的还有短语、分句,有时还包括完整的句子。在这些情况下,构成条目的就不止一个词,如果能够按词分开,对于读者的理解和信息处理都是有帮助的。不幸的是由于对新近公布的“规则”的解释还存在分歧以及规则本身不够完备,使得我们不可能在本索引中对每个条目作出词的切分。虽然这是令人遗憾的,但并不会减低本索引所企望达到的效能,因为我们的目标就是要使读者尽可能快速地在词典中找到要查的条目。
5 反复校核。
为了把错误降到最低限度,本索引的全部内容已经过反复校核。这需要把每个分卷的草稿相继在上海和北京之间往返递送多次。校核工作一直持续到索引制作的最后阶段,即在混合排序、排版和印刷之前,共进行了五年以上。尽管我们作了最大的努力,但是由于本索引的数量、篇幅巨大和上述编制工作的复杂性,还有些少错误遗留下来是不可避免的。为此我们请求读者谅解,并且热诚地希望使用者在发现这类问题时向我们提出,以便我们在再版时予以更正,至少可以提供一份勘误表。
计划进行编制纯字母顺序索引的工作开始于上个世纪80年代,其时还在《汉语大词典》本身完成之前。本课题的草创距离现在已经超过十年。全书的编制正式开始于1995年,在这漫长的时间里,许多人参与了和索引有关的各项工作。在北京,参与人员包括姜俊、郎淑媛、刘士勤、刘泽先、孙琰、王维志、尹斌庸、翟绍华、章云帆和朱守涛。北京工作由副主编方世增进行组织协调,他也负责计算机有关程序设计和排版设计。在上海,进行校核工作的人员主要有田国忠、李爱珍、李鸿福,陈静、古秀蓉、李伟平、李晔、刘征也参加了部分工作。上海工作组由本书责任编辑徐文堪统管,他也是我们与中国的《汉语大词典》及本索引的出版者汉语大词典出版社合作的联络人。我还要感谢德范克(John DeFrancis)、J.Marshall Unger和William Hannas诸位,承他们阅读了这篇“前言”的草稿并提出意见,当然他们并不对本文中的任何论述负责。最后,我愉快地向福利门基金会的慷慨资助表示衷心谢意。没有基金会在过去六年间的支持,要使我们的工作圆满完成是不可能的。
虽然编制本索引的道路是漫长而艰巨的,但在许多朋友的帮助下,我们终于达到了彼岸。如果我们的合作努力能够减轻从事中国语言、历史和文化研究的各方面人士的负担,那么我们多年的辛劳就不是徒然而无益的。
注释:
① 汉-藏语系是一个高度分化的语系,就像印-欧语系、乌拉尔语系、闪语系或南岛语系那样。它有两个主要的语族,即藏-缅语族和汉语族,可以与印-欧语系中的意大利、日耳曼、凯尔特、波罗的-斯拉夫和印度-伊朗语族等相比。被称为“大方言”(这是一个含糊的术语)的,实际上是汉-藏语系汉语族内的语支,其中有不少(例如官话方言、粤方言)拥有真正的语言、方言和次方言,它们内部的差异要比与其他汉语支语言、方言的差异小得多。例如:汉语吴语支里又可分出上海话、苏州话、宁波话等等。
为了避免混乱,“方言”一词一般来说(也就是在非语言学的谈论中)可以译成英语的“topolect”(参看《美国传统词典》第4版),这个词便于比较自由地称呼语支、语言、方言和次方言,其中有些彼此间是完全不能通话的。只有在用于语言学分类所要求的精确的、技术性的意义时,才用“dialect”一词来对译“方言”。对此,请参看我的论文“What Is a Chinese‘Dialect/Topolect’?Reflections on Some Key Sino-English Linguistic Terms,”Sino-Platonic Papers,29(1991年9月),第1-31页。
最权威的中国语言学著作认识到汉语是一个语族,而不是一个单独的语言。被广泛接受的《中国大百科全书·语言文字卷》第523页b栏的表述是:“汉语在语言系属分类中相当于一个语族地位。”在上位分类中,历史语言学家一致认为汉语与藏-缅语有明显的联系。因此,藏-缅语和汉语共同组成一个独立的语系即汉-藏语系。为了保持术语学和分类学上的一贯性,“汉语”一词在英语中最好表示成“Sinitic”(Sino→Sinitic)。
像其他语族一样,汉语经历了复杂的发展过程。在其漫长的历史中,汉语与印-欧语、南岛语、南亚语、藏-缅语、突厥语、通古斯语、蒙古语和其他语言发生了相互影响。汉语和与汉语有接触的诸语言以及语族的联系的性质,尚有待更充分研究和确定。
中华人民共和国是由许多说不同语言的民族组成的。这些语言中有不少属于非汉语族,由此而产生了极其复杂的语言镶嵌现象。
正像汉族吸收了居住在中华人民共和国境内的所有民族的文化和遗传特征一样,汉语也是融合了来自底层语言和相邻语言的各种因素,并在历史进程中从其在东亚中心地带(East Asian Heartland)即中原地区也就是黄河流域的原基地扩展到了整个中国。
② 本索引的特点和使用方法将在这篇“前言”的下面的“凡例”中详予说明。
③ 在上个世纪,已经逐渐认识到真正的汉语词源词典必须把注意力集中在声音和意义的演变上,而不是只探讨文字系统。首先,如果不注意汉语语根和来自非汉语的借词,就不能确定真正的词源,只有做这方面的研究,才能建立起有助于说明与汉语词的原形相关的有规则的(有时又是不规则的)变化的音韵学规律和形态学模式。然而,这种新型的词源学研究,相对来说还处于幼年时期,所以《汉语大词典》的编者无法在书中提供这方面的信息是可以理解的。
④ 如果不借助于一些基于拼音的转换系统,汉字只能按照它们的形体结构进行分类,或武断地分配号码,就像电报码和各种繁复的形码计算机输入系统那样,在这种情况下,必须记住和掌握数百个常用字的编码。
⑤ 下列统计引用自北京语言学院语言教学研究所编《现代汉语频率词典》(北京:北京语言学院出版社,1986年),它表明随着最常用的头三千个汉字字数的增加,其使用频率递减的情况:
用字总数 覆盖率
1,000 91.36559%
2,000 98.06666%
3,000 99.63918%
4,000 99.96001%
4,500 99.99591%
上列图表显示在20,000个汉字的字库中,出现频率低的15,500个字总共只占一般现在通行的文本覆盖率的000409%。对这15,500个低频字来说,每一个的出现频率只有00000002%。既然超过大规模的字库包含70,000字(Unicode)、80,000字(文字镜)甚至120,000字(由日本和韩国研究者个人积累和制作),那就很容易看出最罕见的50,000以至更多的汉字的出现频率可以断言是无限小的。
必须指出的是,这些出现频率很低,极其少见的字(也就是超出最常用的4,500字的汉字)在性质上完全不同于英语或其他用字母文字书写的语言里的罕见词。所有数达百万以上的英语词都是由26个字母组成的。用于英语书写系统的排版机只需要储存26个字母(如果大写也计入,则要增加一倍),再加上一些标点符号和数字。所有这些构成部分只占一个字节的ASCII码,还留有不用的空间。相反,汉语的20,000个以上汉字在电子字库中每个都是离散的、独立的成分。这样,每个汉字都要定位以便提取和输入。包含70,000汉字的Unicode码字集每个字都要占一个以上单独字节,才能与如此庞大的文字系统的组成部分相适应。最常见的与ASCII相协调的Unicode格式被称为UTF-8。用于这种格式的每个字的字节数是个变量: ASCII码为一个字节,某些欧洲文字为两个字节,大多数汉字为三个字节,一些罕见的汉字(“扩展B”)则为四个字节。很明显,将一般的汉语文本与英语文本相比,单独的书写符号数量前者是后者的一百倍(2,600÷26=100)或一百倍以上,这是极其巨大的存储量。在像《汉语大词典》这样的作品里,收录了大量的罕见字,这对于排版的挑战是严苛的。即使是最好的语言学家,如果被要求确定20,000以上汉字的读音和意义也会感到为难。实际上如果超过8,000字,要确定其音义就必须查阅种种参考书。当字库的数量级跃升到70,000字或更多字时,要确定和称呼它们(也就是设定一个特殊的、可以合理恢复的指示器)几乎是不可能的,因为汉字字数在50,000以上时,借以准确认定其读音和语义的标识相对而言太少了。
英语的词汇总量超过100万,而汉语普通话至少也有50万个以上的词,所以这两种语言的词汇总量都是巨大的。但反过来说,汉语书写系统由70,000个甚至更多的分离的元素所组成,其中每一个都必须作为一个在词库和存储装置里的独立单位分别处理,而英语书写系统基本只有26个单独的元素。70,000比之26是完全不同的数量层级,前者几乎是后者的2,692倍。
⑥ 事实上,在这个项目启动时,我们已经拥有7,000个汉字的字库(这是本项目开始时我们能找到的最大字库)。录入汉字时,遇到字库中没有的字,如,说明为3ム+糸,上下结构。缺字数目巨大,录入和校对工作都异常困难。在本索引的工作结束阶段,我们用于排版的字库已经超过20,000个汉字。即使如此,在制作本索引所需要的汉字中,仍然缺少近2,500个左右的汉字。这意味着虽然我们不得不造2,500个左右罕见字,但在我们的排版系统的字库中有6,000个汉字并没有用上。《汉语大词典》本身是铅排的,所以缺字的问题可以另行解决,即如果遇到需要的不常用的字,排版工人就临时进行刻制。