互联网时代的笔墨错讹

  作家:苏芃(北京师范年夜学文学院副教学)

  克日,在收集媒体上读到一篇学术论文,此中援用《大唐新语》“终南捷径”的典故道:“(卢)躲用指终南山谓之曰:‘其中大有佳处,何须在近!’(司马)启祯缓问曰:‘以仆所不雅,乃官吏快捷方式耳。’”继而搜寻“终南快捷方式”,“百量汉语”里居然支有这一词条,释义根据等于《大唐新语》。“终南快捷方式”明显是“终南捷径”之误,这个错讹在许多严正的学术著述里不足为奇,叶圣陶前生1914年揭橥过一篇口语演义《终南捷径》,也被有些研究者误作《终南快捷方式》。

  究其起因,这一错误的产生与汉语辞汇的繁简转换有闭。因为计算机专著名词shortcut在边疆跟港台的翻译分歧,内地译作“快速方法”,港台译作“捷径”,因而在对这类译词进行繁简转换时,即便高低文不跋及翻译用语,也会出现繁体字“捷徑”酿成简体字“快捷圆式”的景象。

  一

  时价卒业季,在审读各类论文时发现,除了单个汉字繁简转换错误答的罕见错误(比如“皇后”误成“皇後”、“千里”误成“千裏”),整个词语转换时发生的错讹也大度存在,个中“末南快捷方式”这类由繁转简的讹变绝对较少,更多的是由简转繁时带来的讹误,如:材料→數據、信息→資訊、请求名目→申請專案、数字化→數位化。更有甚者,如海内存知己→海記憶體良知、卜算子→卜運算元、途中奔跑→途中賓士、鲁隐公元年→魯隱西元年。“资料”变成“数据”、“疑息”变成“资讯”还其实不影响辞意,当心“国内存知己”酿成“海影象体知己”就会让个别读者觉得莫明其妙。这些错误的发生可回因于内地与港台对同一事物的称名分歧,尤其涉及译名不合至多,于是按词繁简转换时就会出现错误的关系。相似现象,江庆柏老师《电脑主动转换中文简繁字产生的问题》(《古籍收拾出书情形简报》2014年第1期)一文已有提醒,但已惹起充足器重,各类出书物中繁简转换错误层见叠出。

  现实上,互联网时期的笔墨错讹,除繁简转换之误,另有很多新的衍死类别。比方,因电脑、脚机输出法发生的错讹。当今最经常使用的是拼音输入法,因为输进拼音后在候选项里会有多组备选字伺候,正在拔取时果草拟失慎或许断定掉误,会致使文本中音远讹字的涌现。异样,应用形码输入法,如五笔字型输进法,和手写输入法等,会招致形近讹字的呈现。

  另外,还有一类无比特别的错讹,因九宫格输入而产生。九宫格是手机拼音输入法最常用的一种键盘结构,将ABC……XYZ等26个字母散布在8个键位上,如许一来,比如拼写“早上”和“早晨”是完整相同的键位,在备选词里又毗连,容易导致“早”“迟”混用的情况,这类不涉及汉字形音义关联的错误关联在传统书写中不会发生。

  再如,因OCR(Optical Character Recognition,光学字符识别)产生的错讹。OCR的道理就是经过扫描纸本等载体上的文字,断定其外形,而后依据盘算机法式禁止婚配识别转译成字符。简而行之,便是把图象上的文字转换成文本字符。OCR硬件在很多范畴利用普遍,假如识其余工具自身是标准的排版文本,辨认率十分下,野生校读也轻便易止。然而在波及古籍文本时,就轻易收生形近而讹,加上人工校读没有细心,会遗患无限。比方多少年前,在天下各天卖卖糖炒栗子的包拆上,常会看到板栗简介中征引《诗经》的“树之棒果”,“棒果”是“榛栗”之讹,经由过程查检发明,那多是某篇教术论文在OCR时产生的过错,导致网上对于板栗的简介耳食之言,终极传布到了民众生涯中。

  发布

  汉语文献的文字讹误类型,以形近而讹和音近而讹为主,从文字的书写主体即人本身来看,形近而讹重要与视觉判定有关,音近而讹主要与听觉判断有关。

  笔者在以往的研讨中借发现,誊写对付象的特色也会带去必定的硬套。好比汉字中形声字数目宏大,特别进入楷书阶段当前,形声字比例年夜删,到了南宋已占汉字的90%以上,大批形声字的存在,白小姐中特网,使得统一声旁且形旁邻近的文字最易发生讹混。如“杨(楊)”与“扬(揚)”,皆从“昜”声,而形旁“木”与“扌”附近,全部字形尤其类似,且读音雷同,字义也多存相干性,因而在书写取传抄过程当中,极易发生同变与混淆。汉语中的讹字、异体字、通假字的繁殖常常与形声字这个特性相关。现在电脑拼音输入法产生的毛病,也是这一近况题目的连续与变体,偶然看似操做失慎,实际上是由于遭到形声字这一特征的烦扰。再者,汉字的构造特面与书写喜欢也会影响文字的正误,如前人曲行横写,就会发生《战国策》中“触龙言”被写成“触讋”的错误。

  可睹,传统文字错讹的本因主要在两个层面:一是书写主体(书写者)判断疏掉,一是书写对象(汉字、文本等)特性干扰,但是前文例举的错讹“终南快捷方式”、“早”“晚”混用、“树之棒果”等,已超越了这两个层面,它们有个独特的地方,皆和新型的书写媒介有关。不管是繁简转换,还是九宫格输入、OCR文字识别,错误的发生,都在这些旁边环顾。这让咱们意想到,互联网时代书写主体和书写对象之间还存在着一个机械智能的前言,新型文字错讹实质上是机械智能带来的反作用,要化解机器智能的缺乏和范围,只要一直晋升技术对象机能,而且增添人工干涉。

  三

  面貌新颖文字错讹,整体而言,要鼎力发作信息技巧,如人工智能、大数据、构建常识关联来解决新时代的新问题。之前文例举的几种错讹类型而言,如繁简转换,能够在word软件里封闭“转换常用词汇”,只按字转换,不按词转换。由于一个简体字对应多个繁体字,由繁转简时,普通较少出现讹误,这类办法可能有用躲避“終南捷徑”转成“终南快捷方式”的问题。但是由简转繁,这种方式又会带来不少繁简略字不对应的错误,必需辅以严厉的校订。另外一方里,须要经由过程改造技能处理词汇在转换进程中带来的关联错误,比如在计算机中树立繁简词表,并表明详细对应的时光与地区信息,如是中国现代的繁体字词,仍是港台现代的繁体字词,进而构建用时性的繁简词库与共时性的繁简词库。至于宫格输入、OCR文字识别等新型错讹,今朝除了技术改革,比如基于大数据的散类剖析,生怕还得依附人工校订。

  固然,最完全无效的规范手腕,是增强说话文字知识的遍及教导,从文字使用者角度建立规范与义务认识,防止于已然。

  《光亮日报》( 2019年03月02日 12版)

[ 地位: 尾页> 光嫡报 ,

发表评论

电子邮件地址不会被公开。 必填项已用*标注