|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成


机器之心报道
机器之心编辑部
在本文中 , 来自哈佛大学、Facebook AI 研究院的研究者提出了一种基于残差能量模型的文本生成方法 , 效果超过 state-of-the-art 的 transformer 语言模型 。 这是能量模型在大规模文本生成中的首次成功应用 , 论文已入选 ICLR 2020 。
|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成
本文插图

论文链接:https://openreview.net/pdf?id=B1l4SgHKDH
近年来 , 随着 GPT-2、GPT-3 模型的出现 , 我们似乎已经可以使用语言模型生成以假乱真的文本 。 然而事实上 , 模型生成的文本存在明显的质量问题 。
比如我们可以训练一个分类器去区分真实文本和语言模型生成的文本 , 而且可以达到非常高的准确率 [1,2] 。 那么 , 一个自然的问题是 , 我们能否使用这个分类器去提高文本生成的质量 , 以期达到更加以假乱真的水平呢?这就是本文的研究问题 。
同时 , 本文还解答了另一个问题:由于传统的文本生成解码器只能使用单向模型 , 如何使用预训练的双向模型 BERT 改进文本生成解码器?
为了便于讨论 , 作者定义一段有 T 个词的文本为 x=x_1 x_2…x_T 。 它有可能是真实文本 , 也可能是一个语言模型 P_LM (x)生成的文本 。 他们训练了一个分类器 E_θ (x)去区分 x 是真实的(real)还是生成的:
|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成
本文插图

这里的 σ 是 sigmoid 函数 , 以确保概率在 0-1 范围内 。 以下示意图展示了训练的目标:
|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成
本文插图

一个好的分类器 E_θ (x)可以确保当 x 比较接近真实文本时 , E_θ (x)比较小;而当 x 比较接近语言模型生成文本时 , E_θ (x)比较大 。 利用 E_θ (x) , 可以修正语言模型 P_LM (x) , 从而得到一个新的文本生成模型 P_θ (x):
|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成
本文插图

上式就是本文提出的残差能量模型(residual energy-based model) , 这里的 Z 是一个全局归一化常数 。 之所以叫它残差模型 , 是因为
|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成
本文插图

|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成
本文插图
在修正
|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成
本文插图

, 比如当 E_θ (x)≡0 时 ,
|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成
本文插图


这个残差模型非常直观 , 当 x 比较「不真实」时 , E_θ (x)比较大 , 因此在残差模型中的概率
|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成
本文插图

会低于未经修正前的
|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成
本文插图


选择这样形式的模型是否有数学上的依据呢?事实上 , 作者的训练方法是噪声对抗训练(NCE)的一个特殊形式 [3,4] 。 理论保证详见论文中的定理 1 , 其结论是当 E_θ (x) 足够强大时(一般意味着足够多参数) , 目标函数的最优解是
|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成
本文插图

, 亦即即使语言模型 P_LM (x)和真实文本有偏差 , 足够强大的 E_θ (x)和足够好的优化算法都可以使残差模型无限逼近真实文本分布 。


推荐阅读