ai|CFan科学院:微信离奇翻译的背后

文章图片

文章图片

文章图片

微信翻译功能推出已有很久了 , 但是微信翻译却曾经曝出一些十分离奇的Bug , 将一些人名翻译成很多莫名其妙的结果 。 微信翻译为什么会出现这样的结果呢?这还得从它背后的翻译技术说起 。
机器翻译——并不陌生的翻译技术
很多经常查找外文资料的朋友都会用到谷歌、百度的在线翻译功能 , 这其实就是机器翻译的一种典型应用(图1) 。
图1 百度在线翻译
不过由于机器翻译只是简单地对单词进行机械翻译 , 因此很多时候翻译的结果并不让人满意 。 因为在实际生活中 , 很多语句翻译还要结合上下文、语气、语境等综合因素进行 , 这样才能获得更为准确的翻译结果 。
为了让机器翻译的结果更为准确 , 相应技术不断更新 。 早期主要应用的是基于规则的技术 , 就是为机器配置一些简单的规则 , 比如名词以特定的后缀-heit、-keit、-ung等结尾 , 然后机器根据这些规则进行机械翻译 。 之后随着语音识别、DNN(深度神经网络)技术的快速发展 , 基于神经网络的机器翻译技术逐渐成为主流 。 微信翻译目前使用的是“神经机器翻译”技术(Neural Machine Translation 以下简称NMT) , 它就是基于神经网络的翻译技术(图2) 。
图2 神经机器翻译
微信翻译的背后——认识NMT技术
NMT是怎样翻译的呢?为什么这次微信翻译会出现如此大的差错?
NMT和传统的基于规则的翻译技术不同 , 它不是一次翻译一个单词的破碎句子 , 而是使用大型人工神经网络计算单词序列的概率 , 将完整的句子放入一个集成模型中 , 从而实现更高质量的翻译 。
NMT在一定程度上模仿人脑的思维方式 , 当我们输入一句需要翻译的语句时 , NMT首先会根据一个单词在整个句子(可以是长句)当中的语境 , 为这个单词建立一个神经网络的模型 , 形成一个语义表示 。 举个例子 , 我们输入的是“dog”这个单词 , 那么NMT会先把它理解为“狗” 。 但是如果我们输入的是一句话 , 如“一条狗生下了小狗” , 那么NMT就会根据单词在句子甚至段落的语境中 , 将模型重新转化成另一种语言 。 比如在法语的语境中 , 狗默认是“le chien” , 但是在上述语境中 , 显然前一个“狗”指的是狗妈妈 , 因此这里的“狗”就会被翻译成代表“女性”的“la chienne”(图3) 。
【ai|CFan科学院:微信离奇翻译的背后】
图3 NMT翻译
既然NMT是基于神经网络的技术 , 那么就离不开模型和算法 。 为了让NMT学会翻译各种语句 , 科学家们会先制定一个模型 , 然后输入海量数据给NMT训练 , 通过大量的数据训练 , 并且结合NMT自主学习 , 最终形成一套算法 。 这套算法部署到服务器后 , 当用户输入特定的语句时 , 服务器在后台就会根据算法进行翻译 , 结合上下文语境 , 将最佳的翻译结果输出到屏幕显示(图4) 。
图4 NMT翻译流程图解
这次微信翻译出现异常 , 原因可能出现在训练数据上 , 因为这次用户输入的只是一句类似“you play basketball like zhangsan?”的句子 。 在这个翻译场景中 , 类似人名“zhangsan”是一个不常见的单词 , 它既没有出现在任何一本英语辞典当中 , 看上去跟句子的上下文也没什么关系 。 可以说NMT在之前的训练中可能并没有接触过这样的数据 , 因此微信翻译服务器在接到类似的语句输入时 , NMT就只能根据算法将最优的翻译结果推送给用户 , 从而出现文章前面所说的翻译Bug(图5) 。
图5 微信翻译结果
不过根据NMT的翻译机制 , 上述Bug的出现还可能是其他原因导致的 。 比如训练集噪音 , 微信翻译团队人员可能使用生成对抗攻击的方式训练 , 在训练中手动加入噪音 , 这样在翻译中会主动对类似的翻译结果进行纠错的操作 , 最终却干扰了翻译结果 。 也有可能是学习错误导致的 , 比如领域不匹配 , 这次语句出现 basketball , 而微信翻译的训练数据集可能没有篮球领域 , 或者跟篮球有关的非常少 , 导致NMT无法精准识别 , 从而翻译效果欠佳 。
因此从严格意义上说 , 这次Bug并不能让微信翻译团队背锅 , 这是由于NMT翻译机制导致的 , 其他使用NMT技术翻译的产品也会出现类似的错误 。
小Bug , 并不影响NMT的应用
这次微信翻译的Bug在网上弄得沸沸扬扬 , 从上面描述我们知道 , 原因并非出在微信身上 。 这次Bug并不影响NMT技术给我们带来的便利 , 随着NMT得到更广泛的应用 , 它必定会给我们的生活带来更多便利 。
举例来说 , 通过使用NMT技术 , 我们可以和全球任何人进行互动 , 这在全球一体化的今天具有很大的现实意义 , 比如很多网店商家 , 借助NMT就可以和全球客户进行交流 。 NMT在多语言同声翻译中的应用 , 则给大家和不同国家的同事之间交流带来方便 , 基于NMT和语音识别开发 , 在2018年博鳌论坛担任同声传译的腾讯同传 , 就让参加会议的各国朋友在第一时间“听”懂和“看”懂了主持人发言(图6) 。
推荐阅读
- 各地地方风味特色菜!
- 中国科学院大学|藏在怀柔群山间的火箭试验基地
- 吸烟|微信表情都戒烟了,你什么时候开始戒?
- 戒烟|微信表情都戒烟了!你还在吸三手烟吗?
- 吸烟|连微信新表情都“戒烟”了,你还在犹豫什么?
- 眼底病|眼底病检查与病例分析
- 北斗卫星导航|“北斗微信”纯属扯淡!千万别被骗了!
- 戒烟|连微信表情都“戒烟”了……
- 微信|微信10年烟龄如今成功“戒烟”,你还有什么理由继续抽烟呢?
- 戒烟|连微信表情都“戒烟”了,你为什么还舍不得掐掉手中的烟?
