谷歌开源首个「方言」数据集:让机器翻译更地道( 二 )


对于每个地区,研究人员要求 MQM 评分者对来自他们所在地区的翻译和来自他们语言的其他地区的翻译进行评分 。
例如,巴西的葡萄牙语评分员同时对巴西和欧洲的葡萄牙语译本都进行了评分,两个分数之间的差异表明语言现象的普遍性,即该语言变体是否可接受,而并非是另一种语言 。
实验结果发现,在葡萄牙语和汉语中,评分者平均比匹配的译文中每个句子多发现大约两个主要错误,表明FRMT数据集确实能够捕获特定区域的语言现象 。
虽然人工评估是确保模型质量的最佳方法,但其往往是缓慢且昂贵的 。
因此,研究人员希望找到一个现成的自动度量指标,可以用来评估模型在基准中的性能,研究人员考虑选择使用 chrF,BLEU 和 BLEURT.

谷歌开源首个「方言」数据集:让机器翻译更地道

文章插图
根据 MQM 评估者对几个基线模型翻译结果的评分,可以发现 BLEURT 与人类判断具有最好的相关性,并且该相关性的强度(0.65 Pearson 相关系数,ρ)与标注者间一致性(0.70组内相关性)相当 。
系统性能
文中评估了一些最近发布的、具有few-shot控制能力的模型 。
基于 MQM 的人类评估,基线方法都表现出一定的localize葡萄牙语输出的能力,但是对于中文普通话,大多没有利用目标地区的知识来生成优秀的当地翻译结果 。
在评估的基准中,谷歌的语言模型 PaLM 模型的性能最佳,为了使用 PaLM 生成针对区域的翻译,首先将一个有指导意义的提示输入模型,然后从中生成文本以填充空白 。
PaLM 仅通过一个例子就获得了很好的结果,在葡萄牙语方面,当增加到10个例子时,质量略有提高,考虑到 PaLM 是在无监督的情况下进行训练的,这种表现已经非常好了 。
研究结果还表明,像 PaLM 这样的语言模型可能特别擅长记忆流畅翻译所需的特定区域的词汇选择 。
谷歌开源首个「方言」数据集:让机器翻译更地道

文章插图
然而,在 PaLM 和人类之间仍然存在显著的性能差距 。
参考资料:
https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

【谷歌开源首个「方言」数据集:让机器翻译更地道】


推荐阅读