钛媒体|MIT科学家开发机器翻译新算法,专为破译消失的古语言


钛媒体|MIT科学家开发机器翻译新算法,专为破译消失的古语言
本文插图
文丨学术头条
语言是文化的有机组成部分 , 也是文化的载体 , 世界文明的多样性在很大程度上表现为世界语言的多样性 。 而在 21 世纪的今天 , 语言学家们显然已经不满足于传统的、对已知语言的研究 。 相反 , 许多科学家开始利用计算机技术 , 去探索已经消失的、几乎成为谜底的灭绝古老语言 。
近日 , 麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory 简称 CSAIL)的研究人员就开发出一种计算机算法 , 旨在帮助语言学家破译历史上已消失的语言 。
无法“谷歌翻译”的古老语言 如今 , 世界上现存约有 7100 种语言 。 然而 , 古时存在的大多数语言都已不再使用 , 几近灭绝 。 数十种已灭绝语言也被认为是“未破译”的语言 , 也就是说 , 我们对它们的语法(grammar)、词汇(vocabulary)或句法(syntax)了解不足 , 也无法理解其文本的意思 。
钛媒体|MIT科学家开发机器翻译新算法,专为破译消失的古语言
本文插图
图 | 世界语言分布地图 2018
而研究这些“未破译”的语言 , 不仅仅是出于学术上的好奇心 。 还是因为 , 不理解语言 , 我们就会错过与讲这些语言的人有关的一整套知识体系 。 不幸的是 , 大多数灭绝语言的相关记录极少 , 因此 , 科学家无法使用谷歌翻译之类的机器翻译工具或AI算法来对其进行解密 。
而传统的研究方法是 , 找出目标语言的“相关”语言来作比较研究 , 例如同一语系或相似度较高的现存语言 。 然而 , 有些语言并没有对应的、已被深入研究过的“相关”语言 , 并且它们通常缺少诸如空格和标点符号之类的传统分隔符(想像一下 , 要解密出用这种语言写出的文字该有多么令人头秃) 。
但是 , CSAIL 的研究人员发明的新系统 , 已被证明能够自动破译消失的语言 , 且无需对其与其他语言的关系有深入的了解 。 他们还表明 , 该系统自身就可以确定语言之间的关系 , 并可以用它来证实最近的一项表明 Iberian 语言实际上与 Basque 语言无关的学术研究 。
语言破译:从文本到矢量的转变 此研究由 MIT 教授 Regina Barzilay 牵头 , 依赖于基于历史语言学(historical linguistics)见解的几项原则 。 其中一条原则是 , 一种给定的语言很少会直接添加或删除整个音节 , 但是很可能会发生某些近似发音的替换 。 比如 , 母语中带有“ p”发音的单词可能会在其后代演变中变为“ b” , 但是由于明显的发音差异 , 变为“ k”的可能性则较小 。
通过整合这些原则和其他语言学约束 , Barzilay 等人的新算法学习将语言发音嵌入多维向量空间 , 在该多维空间中 , 相应矢量之间的距离反映了不同发音的差异 。 这种设计使他们能够捕获语言变化的相关特征 , 并将这些特征表达为计算约束(computational constraints) 。
因此 , 它可以评估两种语言之间的相似度 。 实际上 , 当对已知语言进行测试时 , 它甚至可以准确地识别出该语言属于哪个语系(language families) 。 例如英语、德语同属于日耳曼语系 。
不仅如此 , 算法生成的模型可以将古语言中的单词进行细分 , 并将其一一映射到“相关”语言中的对应单词上去 。 研究团队的最终目标是使该系统仅仅使用几千个单词 , 就能够破译数十年来语言学家们都无法理解的古语言 。
机器翻译相关研究 实际上 , 这并非 MIT 首个使用计算机技术破译已消失语言的研究 。
早在 2010 年 , Barzilay 就和其他合作者一起 , 开发出一个新的计算机算法 , 该算法在几个小时内就破解了古老的犹太语言乌加里特语(Ugaritic) 。
除了帮助破译“神秘的”八种左右古老语言外 , 这项工作还可以扩大自动翻译系统可以处理的语言数量 。 例如目前 , 谷歌翻译支持 103 种语言 , 而破译系统中使用的技术可以帮助其为数千种语言构建词典 。


推荐阅读