机器|冯志伟|罗塞塔石碑与机器翻译( 三 )


本文插图

在句子5中 , farok是第二个单词 , 与它对应的Arcturan语中的第二个单词是jjat , 在句子7中 , farok也是第二个单词 , 与它对应的Arcturan语中的第二个单词也是jjat , 因此我们推测与Centauri语中的farok对应的Arcturan语中的单词应该是jjat.这样 , 我们便可以把farok翻译为jjat(参见图11) 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在farok crrrok hihok yorok clok kantok ok-yurp中的第二单词是crrrok , 这个单词只在 Centauri语中出现一次 , 在双语平行语料库中 , 因而难以找到与Centauri语中crrrok对应的Arcturan语中的单词(参见图12) , 我们只好暂时存疑 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在farok crrrok hihok yorok clok kantok ok-yurp中的第三个单词是hihok , 它在双语平行语料库的3,11,12等句子中都出现过 , 共出现过3次(参见图13) 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在Arcturan语对应的句子中 , arrat这个单词也分别出现过3次 , 它很可能就是Centauri语中的hihok在Arcturan语中的对应单词 。 接着我们查看farok crrrok hihok yorok clok kantok ok-yurp中的第四个单词yorok , 它在句子10和11中分别出现过2次(参见图14) 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在Arcturan语对应的句子10和11中 , 单词mat也分别出现过2次 , 因此mat很可能就是与Centauri语中yorok的对应单词 。 接着我们查看farok crrrok hihok yorok clok kantok ok-yurp中的第五个单词clok(参见图15) 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

Centauri语的clok只在句子10中出现过一次 , 如果句子10中的yorok对应于Arcturan语的mat , 那么 , Arcturan语第10句中其他单词wat , nnat ,gat , bat , hilat都可能是clok的对应单词(参见图16) 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在句子10中 , 如果除了clok之外的其他单词都对应好:lalok对应于wat , mok对应于nnat , yorok对应于mat , ghirok对应于hilat , 那么clok将可能对应于句子10b中唯一没有对齐的单词bat(参见图17) 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

根据排除法(process of elimination) , 我们把Centauri语的clok对应于Arcturan语的 bat(参见图18) 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在使用双语平行语料库进行单词对齐时 , 我们也可以根据同源词(cognate word)进行单词对齐 。 例如 , 在句11a中Centauri语的zanzanok与句子11b中Arcturan语的zanzanat就是同源词 , 它们是单词对齐中的重要线索(参见图19) 。
机器|冯志伟|罗塞塔石碑与机器翻译
本文插图

在句子11a中 , 如果除了crrrok之外的单词都分别与句子11b中的单词相对应 , 那么我们就可以认为句子11b已经饱和(fertility) , 这样 , 句子11a中的crrrok就变成“孤家寡人” , 即它是一个零对应的单词(zero) , 这样的单词也许没有具体的词汇意义 , 是具有一定语法功能的虚词 , 也许是一个没有具体对应词的实词或者其他成分 。 在这种情况下 , 我们也只好不强求crrrok对应(参见图20) 。


推荐阅读