汉典笔顺笔画数据献疑
何远景
(内蒙古图书馆 呼和浩特 010020)
摘 要 举例说明汉典笔画代码存在缺笔、多笔、误码、笔顺不一、部件顺序不一、部件缺失、单字与部件代码不一、部件笔画有误等情况。
关键词 汉典 代码数据 举例 纠谬
将汉字笔画横、竖、撇、捺、折用数字1、2、3、4、5表示,为汉字的数字化提供了一个新的方式,也为编制汉字索引提供了一条捷径。给出汉字的笔画代码,可以很方便地让电脑按数值排序。不过为每一个汉字都标出笔顺代码,是一件很费力的事。现在,汉典网将每一个GBK汉字都给出了代码,我们在编制汉字笔画索引时可以参考借鉴它的成果。笔者在汉典网上查询时,发现它的笔画代码数据并非十全十美,其中有百余字的笔画大可存疑。笔画代码数据是编写笔画索引的基础数据,基础数据错了,以此为据的索引就很可能出错。有鉴于此,略举数例,献疑于各位同仁。
缺笔
�
汉典笔画:44235251521。
拙拟笔画:442352511521。
此字中的部件“旬”字中之“日”字的笔画当为2511,汉典数据疑缺其末笔,做251,成了“口”字。
多笔
�
汉典笔画:1251112112121511。
拙拟笔画:125111211212511。
此字部件“青”之上半部与下半部之间或多一横画。
误码
用1、2、3、4、5代替横、竖、撇、捺、折,难免出现笔画与代码之间的转换误码,12之间、34之间、45之间常会出错。
�
汉典笔画:53123425234343434。
拙拟笔画:53113425234343434。
此字部件“�”字首笔为横,似当做1,现为2。
笔顺不一
汉字书写的笔画顺序,下笔先后,出错频率较高,尤其是一些笔画较多,结构较为复杂的字。
�
汉典笔画:12112544445112321155122。
拙拟笔画:12112544445112321155212。
此字右边为“�”字,�字的笔画为5112321155212,最后三笔为212,而�字最后三笔为122。
部件顺序不一
汉字笔画书写有前后之分,部件书写也有前后之分。
�
汉典笔画:12213251113425125125125。
�
汉典笔画:251251132511134251251。
汉典给出的“�”字部件书写顺序是先“艹”,次“�”,次“吕”,末“吕”;而“�”的笔序为先“吕”,次“�”,末“吕”。“�”下半部下笔顺序是先中间后两边,而“�”的部件笔序则从左至右。
部件缺失
汉典代码中部件缺失的现象极少见,但也有。
�
汉典笔画:24313512212512134。
拙拟笔画:24313541312212512134。
此字笔数应为二十笔,代码却只有十七个,中间少“广”字的代码,成了“�”字。
单字与部件代码不一
不少字既是单字,也可做部件,与其他部件组成新字、除做部件时空间压缩笔画有所变形外,笔形一样者,代码也有所不同。例如:
�
汉典笔画:354435443544。
此字由三个心字组成。汉典“心”字笔画为4544,首笔做4,视为点,而“�”字每个“心”的首笔则做3,视为撇。应以“心”字为是。
部件笔画存疑
再看一个相反的例子。
字
汉典笔画:425521
很显然,汉典把“字”的第二笔视为竖,所以代码为2。GBK中有两个由它做部件组成的字,“�”、“�”。�
汉典笔画:122445521。
�
汉典笔画:3121445521。
“�”、“�”中的“字”的第二笔代码为4,很显然,把它当成了点。拙意以为“字”无论作为单字还是作为部件,其第二笔均应视为点,代码作4为是。
GBK中汉字部件代码中问题最大者可能是下例。
�
汉典笔画:5。
汉典为其赋值5,把它当做折。再看下字
�
汉典笔画:2344。
“�”字最后一笔与“�”同,而它的代码却做2344,也就是把最末笔视为捺,代码才为4。“�”的代码,拙意以为应以4为是。如果把它做5,GBK的部件中的4,只有点“丶”,没有捺,捺的笔形就无从表示。汉典对“�”字的解释为“汉字笔画的一种,从左向右斜下,亦称'捺'”,解释与代码冲突。它前面的微折,不应视为折,而应视为捺的起笔回锋部分。
GBK有两万多个汉字,存疑者仅有百余字,不到百分之一。汉典网为GBK字符标出了笔画代码,做了一件很有益的事。如果能有一部标准的GBK汉字规范问世,汉字的笔画索引将会有一个很大的提高。
何远景 内蒙古图书馆副研究馆员。