机器|冯志伟|罗塞塔石碑与机器翻译


北京联盟_本文原题:冯志伟|罗塞塔石碑与机器翻译
本文转载自公众号:语言科学
提要
解读Rosetta石碑依据的平行语料库方法是非常具有启发性的 , 这样的方法现在已经成为当代机器翻译方法的基础 , 它既是统计机器翻译方法的基础 , 也是神经机器翻译方法的基础 。 神经机器翻译需要大规模语言数据资源的支持 , 语言数据资源的匮乏是当前神经机器翻译面临的一个难题 。
关键词:Rosetta石碑;语言数据资源;统计机器翻译;噪声信道模型;神经机器翻译;神经网络;数据资源匮乏
解读密码(decipherment)是古典文献研究的一个重要内容 , 历代学者依靠自己的聪明才智出 色地解读过很多古代的铭文 , 或者通过铭文中已知的部分来解读铭文中未知的文字 。 1799年 , 法国远征军在埃及的Rosetta(罗塞塔)发现罗塞塔石碑(Rosetta Stone) , 使埃及古代文字的解读工作获得突破性的进展 。 罗塞塔石碑刻于公元前196年 , 现藏于大英博物馆(Robinson 2007) , 参见图1(由笔者2019年摄于大英博物馆) 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

罗塞塔石碑由上至下共刻有同一段诏书的3种语言版本 。 它的上面是埃及象形文字(Egyptian Hieroglyphs , 又称为圣书体 , 代表献给神明的文字) , 这一部分的左上角已经有很大的缺损 , 中间是埃及通俗文字(Egyptian Demotic , 又称草书体 , 是古代埃及平民使用的文字) , 这一部分保存完整 , 放大后如图2所示 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

【机器|冯志伟|罗塞塔石碑与机器翻译】在公元4世纪结束后不久 , 尼罗河文明式微 , 不再使用的埃及象形文字和埃及通俗文字的读法与写法都完全失传 , 虽然后来有许多考古专家和 历史学专家极尽所能来研究 , 却一直无法解读这些神秘文字的结构与用法 。 在这种困境下 , 古埃及金字塔上的文字和木乃伊棺椁上的文字也无法解读 , 因此也就难以打开古埃及文明的大门 。
罗塞塔石碑的下面是古希腊文(Greek) , 这种文字代表统治者的语言 , 这是因为当时的埃及已臣服于希腊的亚历山大帝国的统治 , 来自希腊的统治者要求统治领地内所有的文书都必须添加希腊文的翻译版 , 而近代人类可以读懂古希腊文 。 这一部分保存完整 , 放大后如图3所示 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

罗塞塔石碑这种独特的3种语言对照的写法 , 意外成为解读古埃及文字的关键 , 因为近代人类可以读懂这3种文字中的古希腊文 , 利用古希腊文作为参照 , 来比对和分析罗塞塔石碑上其它两种古埃及文字的内容 , 以已知求解未知 , 就有可能了解这些失传的古代语言的文字与语法结构 。 学者们依据已知的希腊文来解读未知的埃及象形文字和通俗文字 , 在1822年终于揭开埃及古代文字的神秘面纱 , 从而打开古埃及文明的大门 。
在众多尝试解读罗塞塔石碑的学者中 , 19世纪初期的英国物理学家托马斯·杨(T. Young , 1773-1829)是第一个证明碑文中曾多次提及的Ptolemy(托勒密)是人名的读音并利用这个线索首先解读罗塞塔碑文的学者 。
法国学者让-佛罕索瓦·商博良(J. -F. Champollion , 1790-1832)是一个语言天才 , 他靠自学成才 , 年幼时就学会希腊语和拉丁语 , 9岁时可以读懂希腊文原文的《荷马史诗》(Homer) , 在著名数学家傅里叶(J. B. J. Fourier)的鼓励下 , 他开始学习埃及学(Egyptology) , 并在17岁时发表一篇关于在希腊和拉丁作家的作品中保存的埃及地名的词源研究的论文 , 在埃及学研究中崭露头角 , 当时他是法国格勒诺布尔(Grenoble)的一名中学生 。 后来 , 他把自己的一生都献给罗塞塔石碑的解读研究 。 在解读石碑时 , 他第一个发现 , 一直被认为是用形表义的埃及象形文字 , 原来也具有表音的作用 , 他的这个重大发现后来成为解读所有埃及象形文字的关键性线索 。 也正是因为这一缘故 , 罗塞塔石碑被学者们视为探索古埃及语言和文化的关键 , 是打开古埃及文明大门的钥匙 , 而他也就成为解读罗塞塔石碑最负盛名的学者 。


推荐阅读