快手因果推断与实验设计 实验设计方法

设计方法(自动快速因果推理和实验设计) 。
引言:理解和识别用户行为指标之间的关系是实验分析的目标 。在社区氛围中 , 影响用户行为的因素更加复杂 , 关系识别更加困难 。如何利用各学科对社区进行宏观或微观的建模和分析 , 系统评价各种策略的长期生态影响 , 是一个亟待解决的重要问题 。
本文中 , 金雅然博士将以Aauto faster中的直播这一现实任务为例 , 介绍Aauto faster中因果推理和实验设计的相关工作 。主要内容包括:①Aauto faster直播场景中遇到的因果推理问题和技术框架;②基于观察数据或实验数据的因果推理技术案例;③涉及网络效应的复杂实验设计 。
01 Aauto quipper直播场景遇到的因果推理问题和技术框架 。
在Aauto faster中 , 我们主要会遇到这四个问题:用户激励设计、推荐策略评估、产品功能迭代以及产品和方向的长期价值估计 。

我们通常有几种方法来解决这些问题:
基于观察数据的因果推断 , 即从已有实验数据和非实验数据中提取因果关系;
在产品设计中建立正确的AB实验 , 合理计算指标 , 衡量产品功能和迭代的影响;
通过经济模型、机器学习算法、数据和实验的结合 , 构建反事实推理来回答长期效应问题 。
解决这些问题的核心是使用因果推理方法 。

推理的核心是在数据之间存在相关性的前提下 , 考虑数据之间的因果关系 。任务是在给定的假设下选择模型框架 , 从关联中分割出因果关系 , 对因果分析的大小做出正确的估计 , 通过统计推断验证推断的准确性 , 回答推断结果存在多大的波动 。
在因果推理中 , 我们通常应用以下两个框架:

鲁宾潜在结果模型的核心是找到一个合适的对照组 。通常我们要衡量用户是否受到实验的影响 , 但对于同一个用户 , 我们只能观察受影响/未受影响的状态 , 因此需要找到合适的对照组来估计未观察到的影响 。我们通常会构建一些识别性实验 , 比如经济学中的RCT实验 , 互联网中的AB实验 , 或者根据观察数据用适当的方法寻找对照组 。

Pearl因果图模型使用有向图来描述变量之间的因果关系 。通过计算因果图中的条件分布 , 得到变量之间的因果关系 。有向图指导我们利用这些条件分布来消除估计偏差 , 其核心是估计检验分布 , 消除其他变量引起的偏差 。
Pearl框架与Rubin框架相关 。在简单的图表中 , 通过潜在结果模型中的工具变量和匹配方法消除估计偏差符合珀尔的框架思想 。
然而 , 珀尔的框架可以处理多个变量之间的复杂关系 。

综上所述 , 潜在结果和因果图是推断虚拟事实的两种互补方法 , 都旨在计算存在混淆变量时对结果的影响 , 并对因果关系做出假设 , 控制带来偏差的变量 。不同的是 , Rubin框架估计的因果效应主要是干预前后的预期差异 , 而Pearl框架估计的是干预前后的分布差异 。Rubin框架解决的问题是因果效应的估计和统计推断 , Pearl框架更倾向于识别因果关系 。

从这两个框架扩展而来 , 在不同的场景下 , Aauto Quicker将使用不同的工具来解决实际问题 。AB实验帮助我们观察策略或产品变化的影响 。在一些无法进行实验或者多个实验结合的场景中 , 会有一些其他的方法 。具体方法将在下面介绍 。
02基于观察数据或实验数据的因果推理技术案例 。
1.产品功能评价:DID及其扩展案例 。

双差适用于个体固定效果不可观察的场景 , 固定效果通过差消除 。关键假设是政策干预前存在平行趋势 , 实验干预效果不随时间变化 。可以利用双差消除后期可能存在的干扰因素 , 对实验结果进行估计 。


双差假设用户同时开始受到影响 , 实验处理效果对用户也有同样的影响 , 但这些假设很难满足 。比如佩戴云箭红包 , 当实验效果在线时 , 用户的行为会发生变化 , 不同用户的行为不一致 。当不同性能的用户在实验组时 , 传统的DID模型估计实验效果会产生偏差 。因此 , 我们修改了DID方法 , 并根据用户状态是否改变将其分为不同的类型 。我们分别对不同类型的用户进行DID估计 , 然后进行加权平均 , 得到修正后的DID实验效果值 。


推荐阅读