汉典笔顺笔画数据献疑
何远景
(内蒙古图书馆)
将汉字笔画横、竖、撇、捺、折用数字1、2、3、4、5表示,为汉字的数字化提供了一个新的方式,也为编制汉字索引提供了一条捷径。给出汉字的笔画代码,可以很方便地让电脑按数值排序。不过为每一个汉字都标出笔顺代码,是一件很费力的事。现在,汉典网将每一个GBK汉字都给出了代码,我们在编制汉字笔画索引时可以参考借鉴它的成果。笔者在汉典网上查询时,发现它的笔画代码数据并非十全十美,其中有百余字的笔画大可存疑。笔画代码数据是编写笔画索引的基础数据,基础数据错了,以此为据的索引就很可能出错。有鉴于此,略举数例,献疑于各位同仁。
缺笔
惸
汉典笔画:44235251521。
拙拟笔画:442352511521。
此字中的部件“旬”字中之“日”字的笔画当为2511,汉典数据疑缺其末笔,做251,成了“口”字。
多笔
輤
汉典笔画:1251112112121511。
拙拟笔画:125111211212511。
此字部件“青”之上半部与下半部之间或多一横画。
误码
用1、2、3、4、5代替横、竖、撇、捺、折,难免出现笔画与代码之间的转换误码,12之间、34之间、45之间常会出错。
嬭
汉典笔画:53123425234343434。
拙拟笔画:53113425234343434。
此字部件“爾”字首笔为横,似当做1,现为2。
笔顺不一
汉字书写的笔画顺序,下笔先后,出错频率较高,尤其是一些笔画较多,结构较为复杂的字。
驌
汉典笔画:12112544445112321155122。
拙拟笔画:12112544445112321155212。
此字右边为“肅”字,肅字的笔画为5112321155212,最后三笔为212,而驌字最后三笔为122。
部件顺序不一
汉字笔画书写有前后之分,部件书写也有前后之分。
虈
汉典笔画:12213251113425125125125。
嚻
汉典笔画:251251132511134251251。
汉典给出的“虈”字部件书写顺序是先“艹”,次“頁”,次“吕”,末“吕”;而“嚻”的笔序为先“吕”,次“頁”,末“吕”。“虈”下半部下笔顺序是先中间后两边,而“嚻”的部件笔序则从左至右。
部件缺失
汉典代码中部件缺失的现象极少见,但也有。
兤
汉典笔画:24313512212512134。
拙拟笔画:24313541312212512134。
此字笔数应为二十笔,代码却只有十七个,中间少“广”字的代码,成了“黋”字。
单字与部件代码不一
不少字既是单字,也可做部件,与其他部件组成新字、除做部件时空间压缩笔画有所变形外,笔形一样者,代码也有所不同。例如:
惢
汉典笔画:354435443544。
此字由三个心字组成。汉典“心”字笔画为4544,首笔做4,视为点,而“惢”字每个“心”的首笔则做3,视为撇。应以“心”字为是。
部件笔画存疑
再看一个相反的例子。
字
汉典笔画:425521
很显然,汉典把“字”的第二笔视为竖,所以代码为2,GBK中有两个由它做部件组成的字,“茡”、“牸”。
茡
汉典笔画:122445521。
牸
汉典笔画:3121445521。
“茡”、“牸”中的“字”的第二笔代码为4,很显然,把它当成了点。拙意以为“字”无论作为单字还是作为部件,其第二笔均应视为点,代码作4为是。
GBK中汉字部件代码中问题最大者可能是下例。
乀
汉典笔画:5。
汉典为其赋值5,把它当做折。再看下字
尐
汉典笔画:2344。
“尐”字最后一笔与“乀”同,而它的代码却做2344,也就是把最末笔视为捺,代码才为4。“乀”的代码,拙意以为应以4为是。如果把它做5,GBK的部件中的4,只有点“丶”,没有捺,捺的笔形就无从表示。汉典对“乀”字的解释为“汉字笔画的一种,从左向右斜下,亦称‘捺’” ,解释与代冲突。它前面的微折,不应视为折,而应视为捺的起笔回锋部分。
GBK有两万多个汉字,存疑者仅有百余字,不到百分之一。汉典网为GBK字符标出了笔画代码,做了一件很有益的事。如果能有一部标准的GBK汉字规范问世,汉字的笔画索引将会有一个很大的提高。
何远景联系方式:yuanjinghe@126.com。