来源:21世纪经济报道
一位在银行供职多年的网络架构师表示,问题出在“一字两码”。
《生僻字》歌曲火了,但名字中使用生僻字,却容易在现实生活遇到不小的麻烦。
近日,多位人士向记者表示,自己的名字中含有 “䶮”等汉字,在办理公积金、银行卡、第三方支付、手机卡等金融、通信业务时,名字无法被验证,导致业务无法办理。
甚至,因为没法申请银行账户,微信、支付宝也拒绝使用,有的银行建议名字带有“䶮”字的用户改回繁体字“龑”。
生僻字带来金融交易中的麻烦,这一情况并不鲜见。
21世纪经济报道记者发现,除了䶮字,姓名中带有㑇、䜣、䜩、䞍、䴖、䃅、(頔)、(㼆)等几十个冷僻汉字,或多或少遇到身份验证领域的问题,包括银行转账、微信和支付宝申请账户,甚至影响个税退税、学籍认证、办理电信卡。
“䶮”们的烦恼
䶮字音yǎn,繁体字写作龑,意思是飞龙在天,来自《易经》的爻辞,是一个寓意美好的汉字。但在现实生活中,“䶮”是生僻字,却让名字的主人遇到了不小的麻烦。
一位名字带䶮的人士投诉称,在银行转账时,招行账户转账需要用微软输入法才能入账,使用搜狗输入法会退回。建行网银转账则需要用搜狗输入法。
除了银行账户,䶮字无法输入腾讯财付通和支付宝,例如财付通会反馈显示“输入的姓名中存在无法识别的生僻字或姓名圆点输入错误,请检查后重新输入”。
另一位名字有䶮字的人士无法再忍受这种bug,他在中央人民政府网站“我向总理说句话”留言,网站需要实名认证,结果显示“姓名错误,须与身份证的姓名相同”。
类似的bug还存在于个人所得税缴税退税、学籍认证等环节,但凡需要网络实名认证才能完成的金融交易、身份验证等,频繁显示名字错误。
还有名叫䶮的人士表示,两年前去移动、联通办手机电话卡,在读身份证环节卡住,营业厅的人也是想尽办法,甚至还尝试过用户口簿、护照等辅助方式,都在最后一步功亏一篑。
类似名字叫䶮的人士,在生活中遇到麻烦的案例颇多。
一位名叫䶮的网民去年7月在网上留言,办理公积金联名卡、银行借记卡、信用卡,申购外汇等金融业务,名字无法被验证,导致业务无法办理,或需提供各种证明材料进行人工审核,反复在各部门间奔波。人工审核后可在12306上购买火车票,但乘坐航班还是无法用中文名。
另一网民2月留言写道,给孩子起名有一个生僻字“䎃”。出生证明、户口均能顺利办(3.780, -0.04,-1.05%)理,但在办理保险所需的银行卡及临时医保卡时,却不能按照正确姓名办理。
今年4月,山东青岛媒体报道称,当地市民王㞧(音huì)在移动、联通和电信三家运营商都办不了手机号。在电信营业厅身份证识别后,他的名字的第二个字㞧变成了问号,无法正常显示。
临时解决方案
“䶮”等这一类的汉字,是国务院2013年公布的《通用规范汉字表》纳入的汉字,也被《新华字典》收录,但是却在计算机系统中遇到了bug一般的麻烦。
在现实中,这些无法显示的字被“拆字”。21世纪经济报道记者发现,在江西省某网站上,该省新余市市长在政府新闻稿中被写成了犹王莹。这位市长名字中的“王莹”实际上是“㼆”(音yíng)的简化字,但电脑无法输入。
一位互联网业内人士表示,出现这些情况的可能原因有很多,有的身份证阅读器读出来就已经变成问号;电信系统不支持䶮字双码,无法两码输入、存储、显示,无法联网核查;公安系统后台的字与身份证内容不同,机读透传肯定也不过。
“这个字是生僻字,但这个问题挺常见的。”一位华南股份行人士说,遇到这个问题,银行只能逐个排查这个字背后的字符编码,一个一个解决问题。
不过,“如果实在无法解决,只能建议用户改名。”他说,将身份证上的䶮字改回繁体字龑,计算机系统反而是支持的。但是要么有的用户不愿意改名,要么很多地方的公安派出所也通常拒绝随意改名,特别是改成繁体龑不是《通用规范汉字表》所收录的字。
互联网公司给出的解决方案中,蚂蚁集团回应21世纪经济报道记者称,目前针对可输入的生僻字(如㭎、䶮、㑇),已在前台支持认证,可根据前台页面进行认证。若无法认证,建议通过二代身份证办理银行卡,签约快捷尝试认证。
腾讯给出的方案是,到银行拆字或使用拼音开卡,然后在微信输入相同的名字。比如,䶮录入为龙天。
这一问题甚至引起了全国人大的注意。2019年“两会”,有全国人大代表提出“关于解决姓名中含有生僻字人员办事难问题的建议”。对此,教育部、公安部等部门做出了相应的解决方案与建议。
“一字两码”后遗症
教育部在上述人大代表建议回应中表示,生僻字主要使用四字节编码,操作系统、输入法,以及文字处理软件和硬件实现四字节编码的技术难度和成本都较高。在部分应用行业的信息系统仍在使用早期或定制的系统,不具备处理一些生僻字的能力。此外,还有个别系统的部分汉字使用了自定义编码,影响了与外界的信息交换。
一位在银行供职多年的系统架构师对记者表示,问题出在“一字两码”。䶮字存在两个以上计算机编码。由于处理的此类问题多了,业内将这两个编码不同、但字型相似的“䶮”字谑称为大䶮、小䶮。
也即,“自定义编码”导致金融系统、互联网、电信等出现无法识别姓名的情况。
该资深系统架构师告诉记者,汉字编码国家标准,先后经过了GB2312、GBK、GB18030-2000,GB18030-2005不同版本。二代居民身份证的电子数据使用UTF16编码,生僻字使用了Unicode PUA(私有用户区,简称PUA)编码。
大部分人取名来自字典。此前,一代身份证存在不少手写姓名报户口的情况,到二代身份证时才开始数字化。导致一些汉字既有公民身份证PUA编码,又有Unicode编码。
国际上字符标准是Unicode标准,到2020年,Unicode版本到了第13版,收录来自全球的143924个字符,其中包括“中日韩统一表意文字”(简称CJK)整理的92857个汉字。CJK是逐年累积增加大的,包括A到G的7个扩展区域。
其中,“䶮”字等生僻字就有了4个编码。在GB中,编码为“FE9F”“8336CF39”;在PUA中,编码为“E863”;在Unicode中,编码为“4DAE”。
“PUA是早期为解决居民户口登记问题,设计的私有临时区域。当时二代身份证更新换代时,Unicode扩展A区刚刚出现,扩展B区还没面世。各国合作的Unicode出现之后,应该腾出这些码。使用统一的编码。”上述系统架构师表示。从技术角度,PUA适合用作文献整理、历史考古等极罕用字的专业领域,不适合在公共信息交换领域大规模启用。
据悉,由于历史原因,国内大中型银行使用的是IBM i系列或z系统主机,IBM主机EBCDIC可以支持至CJK扩展A区,可容纳约27000字,符合GB18030-2000强制标准。但是根据他的统计,PUA编码了4700多个汉字,其中3600字被Unicode收录。
他建议,金融、电信乃至互联网等各公共服务机构,应尽快升级目前仅支持GBK的系统,满足普通市民使用通规表字(GB18030)的基本要求。对于监管部门而言,如何统一汉字编码规范,解决PUA造成的“一字多码”等问题。
特别是,在目前暂时不能解决PUA用字的情况下,考虑采用GBK繁体容错,而非简单采用《通用规范汉字表》削足适履。