[数据派THU]传播“信息”而不是“病毒”!程序员用500多种语言翻译“洗手”( 二 )


于是我选择尝试通过在现有文档中找到短语本身或短语的组成部分(例如“洗手”或“你的手”)来构建“洗手”一词 。
为了找到这些 , 我使用FacebookResearch的MultilingualUnsupervisedandSupervisedEmbedding(MUSE)库训练了每个跨语言词向量 。 MUSE将单语言词向量作为输入(我使用fasttext生成了这些向量) , 并使用对抗性方法学习了从英语到目标向量空间的映射 , 该过程的输出是跨语言词向量 。
[数据派THU]传播“信息”而不是“病毒”!程序员用500多种语言翻译“洗手”
文章图片
一旦生成跨语言词向量后 , 我们便可以在目标语言文档中找到短语 。 事实证明 , 整个文档中非常清楚地使用了“洗脸”一词以及“手” , “洗你的”等分离的实例 。
对于每种语言 , 我都会在期望该短语出现的区域中搜索N-gram(基于英语并行匹配中的用法) 。 使用跨语言词向量对N-gram进行矢量化处理 , 并使用各种距离度量将其与英语短语的矢量化版本进行比较 , 向量空间中最接近英语短语的N-gram被确定为目标语言匹配 。
最后 , 将与他们的英语对应词相匹配的组成短语组合在一起 , 以生成目标语言中的“洗手”短语 。 这种组合再次利用了跨语言向量 , 以确保以适当的方式组合 。
例如 , 如果我们在目标语言中匹配了短语“洗脚” , 则必须将与“脚”相对应的N-gram替换成与“手”相对应的N-gram , 下面是伯利兹·克里奥尔(BelizeKriol)英语的示例:
[数据派THU]传播“信息”而不是“病毒”!程序员用500多种语言翻译“洗手”
文章图片
当然 , 在此匹配过程中我们做了些假设 , 所以这个过程很可能不会产生语法上正确的预测 。 例如 , 我假设在大多数语言中 , “手””一词和“脚”一词都是一个词长(词之间用空格和标点符号隔开) 。 这个假设肯定跟实际是有出入的 , 以后我们可以克服其中的一些局限性并扩展该系统 , 但是就目前而言 , 该方法可以在没有任何翻译系统支持的情况下提供相对可靠的多语言翻译结果 。
探索一条低数据条件下的短语翻译方法到目前为止 , 我已经能够训练544种语言的跨语言词向量 , 我使用上面的方法尝试为找出这些语言如何表示“洗手” 。
因为缺乏许多语言对的一致数据 , 所以我使用了单独的保留文档 , 其中也包含“洗手”的成分 , 以帮助验证所构造短语中的标记 。
以下是来自Ethnologue语言统计数据的翻译样本:
[数据派THU]传播“信息”而不是“病毒”!程序员用500多种语言翻译“洗手”
文章图片
构造的短语类似于参考译文 , 或者是“洗手”的替代表达方式 。 例如 , 在保加利亚语中 , 我预测为“умийръцете” , 而在Google翻译中 , 预测为“Измийсиръцете” 。 但是 , 如果我使用Google翻译对我的预测进行回译 , 我仍然会得到“洗手” 。
在某些不确定性因素下 , 我无法与参考译文(例如 , 所罗门群岛的Pijin[pis]或带有人工注释范畴进行比较 , 但我仍然可以验证“洗手”(wasim)和“手”(han))分别用于其他必然谈及洗或手的参考文件中 。 使用此方法可以验证大约15%的翻译 , 我希望在收集参考词典时能进行更多的验证 。
请注意 , 即使对于像意大利语这样的高资源语言 , 我最多都使用每种语言的大约7000个句子来获得以上翻译 , 也不依赖于语言对之间对齐的句子 。 尽管存在数据非常匮乏 , 无监督情景 , 但对于两个系统都支持的语言 , 我仍然能够获得质量与GoogleTranslate相似的短语 。
从某种程度上来说 , 这证明了我使用的这种“混合”方法(词向量的无监督对齐+基于规则的匹配)在将短语翻译成数据化很少的语言中 , 是行之有效的 。
相关报道:


推荐阅读