\[CATE=E[Y(W=1) \mid X=x] - E[Y(W=0) \mid X=x]
个体层面 —— Individual Treatment Effect (ITE)
$$ ITE_{i} = Y_{i}(W=1) - Y_{i}(W=0) $$
稳定单位干预值假设
(Stable Unit Treatment Value Assumption)
任何一个单元的潜在结果不会因分配给其他单元的treatment而有所不同,并且对于每个单元,每个treatment级别没有不同的形式或版本,不会导致不同的潜在结果。
这个假设强调以下几点:
unit之间都是相互独立的,unit之间不会存在相互作用
同一treatment仅能存在一个版本。例如,在该假设下,不同剂量的同一种药物代表不同的治疗方法
可忽略性假设
(Ignorability)
给定背景变量
\(X\)
, 干预分配
\(W\)
与潜在的结果无关
例如,由上文的药物治疗的例子来看,如果两个患者有相同的背景变量
\(X\)
,无论治疗任务是什么,他们的潜在结果应该是相同的
类似地,如果两个患者具有相同的背景变量值,那么他们的治疗分配机制应该是相同的,无论他们有什么潜在的结果
正值假设
(Positivity)
对于X的任何一组值,处理分配不是确定的:
\[P(W=w \mid X=x) > 0
\]
如果某些X值的治疗分配是确定的,那么至少一种治疗的结果永远无法观察到。那么估计因果关系是不可能也没有意义的,这意味着干预组和对照组的“共同支持”或“重叠”。忽略性和积极性假设一起也被称为强可忽略性或强可忽略性治疗任务
一般的研究方法
核心问题:
如何估计特定人群的平均潜在治疗/控制结果?
想当然的解决方案:
计算平均治疗和对照结果之间的差异,即ATE
存在的问题:
由于混杂因素(confounders)的存在,这种解决方案是不合理的
混杂因素(Condounders)是同时影响干预分配和最终结果的变量
在下图中,展示的是两种治疗方案对年轻/年老两种病人群体的治疗效果
从表格中我们显然可以看出,抛开年龄我们从整体上来看,不难得出结论:A治疗方案更好;但是考虑年龄的话,无论在是年轻的病患群体中还是年老的病患群体中,B方案的治愈率明显更高,由此得到结论:B治疗方案更好。这两种结论显然是互相矛盾的,但是为什么考虑年龄之后,会得出截然相反的结论呢?
实际上,这是一种名为辛普森悖论的现象。辛普森悖论指的是同一组数据,整体的趋势和分组后的趋势完全不同。也就是说,整体数据和分组数据产生的结论截然相反。
辛普森悖论的解释
:
在上面的例子中,数据分组的指标是年龄,而年龄同时影响着恢复率和治疗方案的选择。从恢复率数据来看,无论是哪种治疗方案下,年轻组的恢复率普遍比年老组高得多,而从治疗方案的选择来看,年轻组更倾向于选择A治疗方案,而年老组则更倾向于选择B治疗方案。正是这种共同影响的存在,使得整体结果和分组结果完全不同。
在这个例子中,干预分配显然就是治疗方案的选择,最终结果就是治愈率,显然可以得知,年龄在这里就是混杂因子。混杂因子的存在导致辛普森悖论现象的产生,因此,在混杂因素存在的情况下,我们不能针对观测数据轻易下结论。
混杂因子的存在影响着干预分配的选择,treatment组和对照组的分布有可能不一致,因此导致出现偏差,这也使得反事实结果估计更加困难。
因果推理方法
Re-weighting(重加权算法)
Stratification(分层算法)
Matching(匹配算法)
Tree-based(基于树的方法)
Representation Learning(表示学习)
Multitask Learning(多任务学习)
Meta-learning(元学习)
重加权算法
干预组和对照组观测数据的分布不同,这就是选择偏倚带来的挑战。为了克服选择偏倚,可以考虑对样本进行重新加权。
通过给观察数据集中的每个样本分配适当的权重,可以创建一个伪总体,使得干预组和对照组的分布相似。然后根据重加权后因果效应的评估。
上图展示了重加权的过程,当存在年龄Age这个混杂因子时,选择偏倚使得干预组和对照组的分布存在一定差异,对样本重新分配权重后(右图加粗部分,可以认为是增加了权重),使得干预组和对照组的分布相似,从而消除了混杂因子Age带来的选择偏倚。
它是给定观测协变量向量的特定干预分配的条件概率,反映出样本x选择treatment的可能性。
$$e(x)=Pr(W=1 \mid X=x)$$
反向倾向加权(IPW)
给每个unit指定的权重为:
$$ r = \frac {W} {e(x)} + \frac {1-W} {1-e(x)}$$
其中
\(W\)
是treatment,
\(e(x)\)
是倾向得分。重加权后在整体层面对平均干预效果进行估计:
理论结果表明,调整倾向得分足以消除由于所有观测到的协变量而产生的偏差。但是这种加权方法高度依赖倾向性得分的正确性。
双保险估计/增广IPW
它将基于倾向得分加权的重加权算法和结果回归相结合
当倾向性得分或者结果回归中只要有一个是正确的,就能做到无偏估计。
协变量平衡倾向得分(CBPS)
倾向性得分既可作为干预分配的概率,又可作为协变量平衡得分,CBPS利用了这一双重特征,通过解决下面这一问题来估计倾向性得分:
数据驱动变量分解(
\(D^{2}VD\)
)
假设
:观测变量可以分解为混杂变量、调整变量和无关变量
目的
:区分混杂变量和调整变量,同时剔除无关变量。
重加权算法总结
通过将整个组分成子组来调整选择偏差,在每个子组中,treatment组和对照组在某些测量值下是相似的,干预效果的估计结果是所有子组的加权平均。
利用分层算法估计的平均干预效果:
匹配算法使用下面的公式来估计后果
\[\hat{Y}_{i}(0)=\left\{\begin{array}{ll}
Y_{i} & \text { if } W_{i}=0 \\
\frac{1}{\# \mathcal{J}(i)} \sum_{l \in \mathcal{J}(i)} Y_{l} & \text { if } W_{i}=1
\end{array}\right.\]
\[\hat{Y}_{i}(1)=\left\{\begin{array}{ll}
Y_{i} & \text { if } W_{i}=1 \\
\frac{1}{\# \mathcal{J}(i)} \sum_{l \in \mathcal{J}(i)} Y_{l} & \text { if } W_{i}=0
\end{array}\right.\]
\(\hat{Y}_{i}(0)\)
代表对照组,
\(\hat{Y}_{i}(1)\)
表示实验组。
\(\mathcal{J}(i)\)
代表在相反的treatment组中和单位
\(i\)
距离最近的样本。
样本距离度量方法
特征变换空间
基于倾向得分的转换空间
其他转换空间
基于倾向得分的匹配
基于倾向得分
\[e(x)=Pr(W=1 \mid X=x)
\]
定义两个units之间的距离
\[D(x_{i},x_{j}) = \left | e_{i} - e_{j} \right |
\]
匹配算法
Caliper算法
匹配算法总结
此外还有基于树的方法、表示学习、多任务学习、元学习,这里就不展开了。
这一章节介绍当前研究可用的数据集、开源代码及研究框架。
由于反事实的结果永远无法被观察到,因此很难找到一个完全满足实验要求的数据集,即具有基本真实数据集 (ITE) 的观测数据集。
现在很多研究中使用到的数据集基本上都是半人工合成的数据集,合成的规则不尽相同,如IHDP数据集,是从随机数据集中按照一定的生成过程生成其观测结果,并去除一个有偏子集来模拟观测数据集中的选择偏差。一些数据集,如Jobs数据集,将随机数据集和观察控制数据集结合起来,产生选择偏差。
目前可用基准数据集
Twins
ACIC dataset
IBM causal inference benchmark
BlogCatalog
Flickr
MVICU
Saccharomyces cerevisiae (yeast) cell cycle gene expression dataset
FERTIL2
开源的研究框架(工具箱)
Dowhy
—— 微软研发,基于Python
Causal ML
—— Uber研发,基于Python
EconML
—— 微软研发,基于Python
causalToolbox
—— 基于R语言
开源因果推理方法
基于Python语言
PSM1
/
PSM2
Perfect Match
GANITE
BNN/CFR
CEVAE
dragonet
DRNets
Network Decondounder
Network Embeddings
基于R语言
Principal Stratification
Stratification
Matching based
optimal matching
TMLE1
/
TMLE2
R-learning
Residual Balancing
Entropy Balancing
因果推理的应用可以分为三个方向
决策评估 —— 这与Treatment效果评估的目标是一致的。
反事实估计 —— 反事实学习极大地帮助了与决策相关的领域,因为它可以提供不同决策选择(或策略)的潜在结果。
处理选择偏差 —— 在许多实际应用程序中,出现在收集的数据集中的记录并不代表感兴趣的整个群体。如果不恰当地处理选择偏差,将影响训练模型的泛化。
下面是这三个方向适用的应用场景:
正确衡量广告活动的效果是品牌方成功营销的关键,如新广告是否增加点击量,或新广告是否增加销售额等。
随机试验 —— 成本高且耗时,不应采纳
从观察数据中估计广告效果
随机最近邻匹配法 —— 估计数字营销活动的治疗效果
协变量平衡广义倾向得分(CBGPS)—— 用于分析政治广告的有效性
处理选择偏差
推荐系统中使用的数据集通常由于用户的自我选择而产生偏差。
例如,在电影收视率数据集中,用户倾向于对自己喜欢的电影进行评分:恐怖电影的收视率大多由恐怖电影迷制作,而浪漫电影的影迷则较少。
对于广告推荐,推荐系统只会将广告推荐给系统认为对这些广告感兴趣的用户。
在上面的例子中,数据集中的记录并不代表整个群体,这就是选择偏差。这种选择偏差给推荐模型的训练和评价带来了挑战。基于倾向得分的样本再加权是解决选择偏差问题的有效方法。
反事实估计
当可以估计不同的可用药物的疗效时,医生可以据此开出更好的处方。
反事实估计
通过比较不同教学方法对学生群体的影响,可以确定一种更好的教学方法。