ICLR 2020 | 反事实因果理论如何帮助深度学习？尤其是在特征提取的能力方面

以深度学习为代表的表示机器学习取得了巨大的成功，尤其是在特征提取的能力方面。但是与此同时，一个巨大的问题是深度神经网络的黑箱问题和不稳定性问题。其中的一个根本原因，是基于相关性的统计模型容易学习到数据中的“伪关系(spuriousrelation)” ，而非因果关系，从而降低了泛化能力和对抗攻击的能力。
以深度学习为代表的表示机器学习取得了巨大的成功，尤其是在特征提取的能力方面。但是与此同时，一个巨大的问题是深度神经网络的黑箱问题和不稳定性问题。其中的一个根本原因，是基于相关性的统计模型容易学习到数据中的“伪关系(spuriousrelation)” ，而非因果关系，从而降低了泛化能力和对抗攻击的能力。
一个潜在的方向，就是采用从90年代以来以JudeaPearl为代表的研究者们提出的因果推断理论来改进现有的表示学习技术。然而，因果分析框架和表示学习并非天生相容。因果分析通常是基于抽象的、高层次的统计特征来构建结构因果图；而表示学习则基于海量数据提取具体的、低层次的表示特征来辅助下游任务。为了结合这两者， MILA的YoshuaBengio提出了System2框架， MaxPlanckInstitute的BernhardSch?lkopf提出的因果表示学习框架。这两者实际上的思考是一致的。
在本文中，我们将会讨论ICLR2020上因果表示学习的2项有代表性的工作：如何利用因果理论中的反事实（counterfactual）框架来提高算法的稳定性和可解释性。
LearningtheDifferenceThatMakesADifferencewithCounterfactually-AugmentedData
近年来，深度学习在自然语言处理领域获得了巨大的成功。但是，质疑声也一直不绝于耳，尤其是关于深度学习容易学习到语言数据集上的伪关系（spuriousrelation）的问题一直没有得到解决。因果推断理论告诉我们，这是由于混杂因子（confounding）造成的。
然而，将因果推断方法应用到自然语言处理面临着巨大的困难：什么是自然语言当中的随机变量？如何从表示中找出混杂因子？如何让学习结果更加稳定，避免受训练集中的伪关系影响？其中最大的困难，在于如何定义自然语言中的因果关系。
在本文中，作者设计了一种巧妙的方法，绕开了随机变量的定义问题，转而采用因果理论中的另一个重要概念——反事实——来进行humanintheloop的数据增强以避免伪关系的干扰。

文章图片
本文在情感分析的一个3分类数据集上，利用Amazon’sMechanicalTurk众包平台，要求人类对句子做轻微的修改。这些修改包括：
*将事实变为希望：比如加入supposedtobe表示虚拟语气
*反讽语气：如加入引号修饰、改为反问句表示反讽
*插入/替换修饰词：将interesting替换为boring
*插入短语，修改评分等
使评论的情感分类发生变化（如从正面变为负面）来进行数据增强。实验证明，对于支持向量机，朴素贝叶斯，随机森林， Bi-LSTM和BERT：
a)在原有数据集上训练后，相比原测试集，反事实数据集上的测试结果要差许多。反之亦然。
【ICLR 2020 | 反事实因果理论如何帮助深度学习？】b)在结合了反事实增强过的训练集上训练，模型性能相比原来有着巨大的提升。
c)BERT不但在通常情况下表现最好，而且在反事实干扰的数据集上表现也降低得最少

文章图片
在案例分析中，研究者们也表明增强后模型排除了原来模型学习到的一些伪关键特征。

文章图片
CounterfactualsUncovertheModularStructureofDeepGenerativeModels
有监督的视觉模型很容易会被伪关系干扰从而学出带有偏见的结果。比如，一个典型的例子是有监督CNN模型在识别狼和狗的图片时，实际上使用的统计特征是狼一般在雪中而狗在草地上。也就是说，模型认为“背景（草或雪）”与“目标（狗和狼）”之间存在某种关系。而实际上，这两种特征是解耦合的。我们希望能找到某些能学会解耦合的特征表示的模型。
一个自然地验证模型解耦合能力的想法，是检验模型能否推理反事实情况（比如狗在雪中，狼崽草上）。这样的反事实推理能力也是人类智能的一个重要标志，即推理未发生事件的结果的能力，属于因果学习的一个重要分支。反事实理论在计量经济学和公共卫生领域得到了广泛的应用，然而对于机器学习，这套理论的应用方法仍然是一片空白。
将因果学习应用在表示学习上的一个重要改进的方向，就是来自MaxPlanckInstitute的Scho?lkopf和MILA的Bengio目前倡议的causalrepresentationlearning.本文即是Scho?lkopf在ICLR2020上的一篇尝试性的工作：通过验证模型推断反事实的能力，来验证生成式模型（BigGAN）可以学习到解耦合的模块化结构。

文章图片
这篇工作基于一个重要假设：负责生成不同内容的因果机制，对最终生成结果的贡献是相互独立的。因此，如果我们能学到具有解耦合能力的表示模型，则各个模块在被干预(intervene)的结果应该是互不影响的。在此基础上，他们提出了因果生成模型（CausalGenerativeModel）的分析框架来解耦合生成式模型的模块化结构，如下图所示。
a)表述了生成映射和分离变换T（表示对某个特征z_2的干预，不会对其他特征在任一表示空间的值产生影响）
b)CGM模型的因果图， V_1,V_2表示不同的模块是独立的
c)稀疏变换在latentspace上的机理
d)内在分离变换的表示

文章图片
文章使用了很多因果理论的公式来分析，并且定义了一套理论性的语言。但是核心的思想就是一条：通过对CNN的某些channel进行值的调整，从而实现因果学习中的“干预”（加强、削弱或者替换某些特征），根据反事实结果来检验这些channel是否是解耦合的。
为了实现这个目标，要做几件事情：
如何找到这些channel（作者称为内部表示）：有许多已有的方法，可以通过分析CNN的激活层的热力图来判定某个channel负责生成什么内容。若干channel如果负责生成同一内容，则可以通过clustering的方法来判定。

文章图片
如何衡量这种因果效应：作者通过在潜在空间，对不同特征进行独立的采样，并且在输出的图像上的变化作为验证，构造了一个“平均绝对效应”来衡量。
实验结果表明， BigGAN能够做到混合不同的特征，进而表明以GAN为代表的一系列无监督与自监督学习方法能学到比有监督学习方法更解耦合的、更稳定的特征。

ICLR 2020 | 反事实因果理论如何帮助深度学习？

推荐阅读

小飞人|马伊琍近照状态太好了吧！短发爽利穿搭气质，看着年青好多

迪丽热巴■今年开拍的7部热剧，杨紫赵丽颖杨幂热巴，你期待谁？

空腹喝乌龙茶的好处,谭洋功夫茶饮用中的注意事项

小熊带你玩科技麦克风音质不好、噪讯多？先学习如何控制底噪

东北网|央视七夕晚会和乌兰图雅约起来

中国|富时罗素公司宣布中国国债将被纳入富时世界国债指数

信阳弘扬茶文化普及茶知识讲座罗山开讲

mac一键恢复出厂设置苹果一键恢复出厂设置在哪里

[卢松松]2020企业主如何低成本通过“网络推广”新增客户实例问答

[九点娱乐说]张翰郑爽复合？分手多年两人罕见同框复合粉太激动！，

复婚无望？曝谢霆锋管控抚养费7300万，不准张柏芝幼子使用

最新发朋友圈的经典语录?感悟人生的经典语录发个朋友圈

南曦姐姐■网友：这才叫“腿精”，关晓彤真够惊艳的！穿A字裙配短T恤秀美腿

人流广告(无痛人流宣传海报)

健康上海|上海今天1例1岁病童治愈出院，累计治愈出院910例

为什么越来越多的显示器依赖USB-C

坐瑜伽球的好处

这些药千万不能同服，当心治病不成反要命

仙桃发布|湖北仙桃市一化工企业发生闪爆致6死4伤

一周@上周美国首次申请失业救济人数飙升至328万