机器|冯志伟|罗塞塔石碑与机器翻译( 二 )


机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

这里我们简要说明商博良解读古埃及文字的方法 。 从罗塞塔石碑上摘取如下的埃及象形文字片段 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在图5中可以看出 , 1,2的右侧都有相同的象形文字 , 我们把文字的方向从左写到右 , 其相同部分如图6所示 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

经过与罗塞塔石碑下面的古希腊文对比分析发现 , 这些古埃及象形文字对应于字母Ptolmes , 也就是Ptolemy的古埃及象形文字音译表示法 , 如图7所示 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

商博良把研究的结果亲自制成一张古埃及象形文字与古希腊字母的发音对照表 , 如图8所示 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在此基础上 , 学者们进一步研究 , 终于成功地解读罗塞塔石碑上的古埃及文字 。 对罗塞塔石碑的解读是语言文字学的伟大成就 , 也是人类文明史上的一段佳话 。 我们认为 , 罗塞塔石碑上面的3种文字就像3个彼此对应的平行语料库 , 罗塞塔石碑也许就是世界上最早的平行语料库 。 对罗塞塔石碑上古代埃及文字的解读 , 是使用平行语料库方法来解读未知古代文字的一次成功的范例 。 解读罗塞塔石碑所依据的语言数据很有限 , 规模也很小 , 而学者们根据这些小规模的数据 , 竟然解读成功 。 这说明语言数据对语言文字的研究具有举足轻重的作用 。 现在我们进入大数据时代 , 数据的来源比解读罗塞塔石碑的时代更丰富 。 我们是否可以采用2种或3种文字对照的方法 , 根据一定规模的语言数据 , 建立对应的平行语料库来做不同语言的机器翻译呢?回答应当是肯定的(冯志伟 1995:20 - 22) 。
在采用解读密码的方法进行机器翻译时 , 关键的问题是要有一定规模的平行语料库数据来反映源语言(source language)与目标语言(target langage)对应的规律 , 获取不同语言之间对应的知识 , 依靠我们的洞察力对这些语言数据之间的关系进行正确的猜测 , 从而发现隐藏在平行语料库中的语言学规则(冯志伟 2004:121 - 124) 。 如果我们建立类似于罗塞塔石碑那样的平行语料库 , 就可以利用从平行语料库中获取的语言知识 , 通过计算机来进行机器翻译 , 这样的机器翻译就是基于语料库的机器翻译(corpus - based machine translation) 。
下面 , 我们用一个简单的例子来说明怎样使用双语平行语料库进行不同语言之间的机器翻译(Kinght 1999: 12 - 15) 。
Centauri语和Arcturan语是两种不同的美洲印第安语 , 如果要使用解密码的方法把Centauri语翻译成Arcturan语 , 我们可以根据已有的语言数据建立如下的Centauri语和Arcturan语的双语平行语料库 。 在这个双语并行语料库中 , 有12对彼此对齐的句子 , a表示Centauri语的句子 , b表示与之对应的Arcturan语句子 , 如图9所示:
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

现在 , 我们利用这个双语语料库 , 使用解密码的方法 , 对Centauri语的句子farok crrrok yorok clok kantok ok-yurp中的每一个单词 , 找到它们在Arcturan语中的对应单词 。 这个过程叫做 “单词对齐”(word alignment) 。 首先在语料库中查找Centauri语待译句子中的第一个单词farok , 我们发现在第5句和第7句中有farok(参见图10) 。
机器|冯志伟|罗塞塔石碑与机器翻译


推荐阅读