机器|冯志伟|罗塞塔石碑与机器翻译( 五 )



在等式(2)中 , P(T)是目标语言的“语言模型”(Language Model , 简称LM) , P(S|T)是给定T的情况下S的“翻译模型”(Translation Model , 简称TM) 。 根据语言模型和翻译模型 , 求解在给定源语言句子S的情况下最接近真实的目标语言句子T^的过程 , 这相当于噪声信道模型中解码的过程 。
从翻译的意义上可以这样解释等式(2):假定有一个目标语言的文本T(指翻译意义上的目标语言 , 也就是噪声信道模型意义上的源语言) , 经过某个噪声信道后变成源语言S(指翻译意义上的源语言 , 也就是噪声信道模型意义上的目标语言) , 源语言文本S由目标语言T经过奇怪编码的扭曲变形之后而得到 , 机器翻译的目的就是要把S还原成T , 这样机器翻译的过程就可以看成一个解码的过程(参见图23) 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在图22中 , P(T)是目标语言文本的语言模型 , 它与源语言无关 , P(S|T)是在考虑目标语言T的条件下 , 源语言S的条件概率 , 它是翻译模型 , 反映两种语言翻译的可能性 , 与源语言和目标语言都有关 。 在布劳恩关于统计机器翻译的经典性论文中(Brown et al. 1993: 21-24) , 公式(2)被称为“统计机器翻译的基本方程式”(Fundamental Equation of Statistical Machine Translation) 。 根据这一方程式可知 , 统计机器翻译系统要解决3个问题:(1)语言模型P(T)的参数估计;(2)翻译模型P(S|T)的参数估计;(3)设计有效快速的搜索算法(解码器)来求解T^ , 使P(T)P(T|S)最大 。 据此 , 一个统计机器翻译的框架可以表示如下(参见图24):
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

可见 , 一个统计机器翻译系统应当包括语言模型(LM)、翻译模型(TM)和解码器(decoder)3个部分 。 语言模型P(T)表示T像目标语言中句子的程度 , 它反映译文的流利度(fluency) 。 翻译模型P(S|T)表示目标语言T像源语言S的程度 , 它反映目标语言T对源语言S的忠实度(adequacy) 。
著名学者严复(1854 - 1921)提出 , 翻译应当遵从“信达雅”标准;鲁迅(1881 -1936)把严复的标准简化为“顺”和“信”两个标准 。 根据我们的常识 , 好的机器翻译应该是流畅的 , 同时又应该是忠实于源语言的 , 就是说 , 既要“顺” , 又要“信” 。 鲁迅的“顺”这个标准反映“统计机器翻译的基本方程式”中对于“语言模型”的要求 , 他的“信”这个标准反映“统计机器翻译的基本方程式”中对于“翻译模型”的要求 。 在统计机器翻译中联合地使用语言模型和翻译模型 , 既考虑译文的“顺” , 又考虑译文的“信” , 其效果应该比单独地使用翻译模型好 。 如果仅仅考虑翻译模型 , 由于只考虑“信”而忽视“顺” , 常常会产生一些不通顺的译文 。 由此可见 , “统计机器翻译的基本方程式”中语言模型反映传统翻译理论中的“顺” , “统计机器翻译的基本方程式”中翻译模型反映传统翻译理论中的“信” , 在直觉上 , 统计机器翻译的原则与传统的翻译理论并没有冲突(冯志伟 2013:23-26) 。
对于语言模型的概率计算 , 也就是给定一个句子 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

例如 , 句子I saw water on the table(我看见桌子上的水)的二元语法的概率为:
P(I saw water on the table)=P(I|START)*P(saw|I)*P(water|saw)*P(on|water)*P(the|on)*P(the|table)*P(END|table)
显而易见 , 这是一个N元语法(N-gram)问题 。 对于翻译模型概率的计算 , 关键在于如何定义目标语言句子中的单词与源语言句子中的单词的对应关系 。 我们在前面讨论过Centauri语和Arcturan语双语平行语料库中单词的对齐问题 。 这里我们再讨论英语和法语单词对齐的一些例子 。 在句子偶对(John loves Mary|Jean aime Marie)中 , 我们看到英语单词John生成法语单词Jean , loves生成aime , Mary生成Marie , 这时我们说 , John和Jean对齐 , loves和aime对齐 , Mary和Marie对齐 。 那么 , 我们怎样发现句子中两种语言单词之间的这种对齐关系呢?


推荐阅读