在经历了第一季的前沿探索,第二季因果基础知识和实践之后 (前两季学习路径参考文章: 构建因果引擎,创新科研范式——因果科学的学习路线图 ,该如何利用因果工具成为了社区成员的最关心的问题。“因果+X”就是要让因果真正地应用于我们的科学研究中,不管你是来自计算机、数理统计领域,还是社会学、经济学、管理学领域,还是医学、生物学领域,我们希望共同探究出因果研究的范式,真正解决因果的多学科应用问题,乃至解决工业界的问题。

由智源社区、集智俱乐部联合举办的因果科学与Causal AI读书会第三季,将主要面向两类人群:如果你从事计算机相关方向研究,希望为不同领域引入新的计算方法,通过大数据、新算法得到新成果,可以通过读书会各个领域的核心因果问题介绍和论文推荐快速入手;如果你从事其他理工科或人文社科领域研究,也可以通过所属领域的因果研究综述介绍和研讨已有工作的示例代码,在自己的研究中快速开始尝试部署结合因果的算法。

第三季 因果科学与Cau sal AI读书会,将主要结合因果推断的潜在结果 (Potential Outcomes) 框架展开讨论,并尝试在不同领域尝试建立与SCM的对应关系。

分享主要按照 「理论学习」+「案例研讨」 的模式进行展开:

第一个模块为「理论学习」模块,这部分将参考W. Imbens和B. Rubin的著作 Causal Inference for Statistics, Social, and Biomedical Sciences 以及A. Hernan和M. Robins的 Causal Inference: What if 进行分享,将重点介绍潜在结果框架,包括但不限于实验性研究和观察性研究中的重要方法以及更稳健的因果效应估计方法。

第二个模块为「案例研讨」模块,将围绕目前在不同领域学术界和业界面临的重要问题,研讨包括但不限于计量经济学、推荐系统、精准医疗、计算社会科学、推荐系统、智能运维等学科典型的因果相关分析的研究实例。对这些研究进行复现。 们也将尝试提供相关代码示例,对这些研究进行复现,帮助大家在自己的研究中快速开始部署结合因果的算法。

整体内容设计模块如下:

(文末有具体介绍与参考文献)

「基础理论学习」

因果推断的潜在结果框架在实验性研究的应用
因果推断在观察性研究中的应用:DESIGN
因果推断在观察性研究中的应用(续):ANALYSIS
「案例研讨」
医学、药学、生物学中的研究案例
管理学、经济学、社会学及政治学中的研究案例
因果随机森林及其在工业界的应用
多级治疗与连续性暴露
因果推荐系统
因果在自然语言处理中的应用
因果与公平性和可解释性
「深入理论学习」
双稳健估计、处理极端倾向得分的方法
阴性对照试验
高维因果推断
结合随机化试验数据与观察性数据
潜在结果指接受潜在治疗的个体的结果,通常在有限样本中,视每个个体的潜在结果是命定的,而随机性来源于分配机制 (Assignment Mechanisms) 。若分配机制已知,则称为实验性研究 (Experimental Studies) ,否则称为观察性研究 (Observational Studies) 。对于个体而言,治疗的因果关系是个体接受治疗的潜在结果与未接受治疗的潜在结果之间的差异。因果推断的挑战仍然是缺失数据问题,目前已经被广泛应用于学术界及业界,包括但不限于:计量经济学,推荐系统,精准医疗以及人文社科领域等。
在实验性研究中,我们将介绍完全随机实验的四种估计因果效应以及置信区间的方法:Fisher精确P值法,Neyman重复抽样法,回归方法以及基于模型的推断方法,然后推广至分层随机实验和配对随机实验。
在观察性研究中,我们将介绍倾向性得分的估计及分层方法,以及协变量分布均衡性的评估,修剪法和匹配法提升协变量均衡等。为了实现更稳健的因果效应估计,我们还将介绍逆概率加权和边缘结构模型,G-估算与结构嵌入模型,以及工具变量法。
在「案例研讨」过程中,将由各个领域的主讲人介绍因果推断技术在各自领域内的现有推断方法,推荐系统中的双稳健方法,因果推断在多级治疗或连续暴露情形下的推断方法,以及快手等业界中广泛使用的因果森林方法。
医学、药学、生物学中的研究案例
一、随机化被破坏时的因果推断
在一个随机化试验中,每个个体都被随机地分配到两种处理方案中的一种,这时估计平均因果作用是很容易的。但实际上,随机化条件有可能被破坏。例如,在激励试验中,患者未必遵从医嘱,实际接受的治疗方案与原本被分配的治疗方案不同;在以非生存结局为主要关心目标时,主要结局可能被死亡截断,无法对死亡个体定义主要结局。处理不完美随机化试验通常采用主层分析(Principal Stratification)方法,把按照某中间潜在结果把人群分层,然后考虑有意义的主层(如依从组、存活组)内的因果作用。
二、精准医疗
精准医疗旨在根据患者的特征,选择恰当的治疗方案,达到治疗收益的最大化。患者需要根据自己的病情选择最优的治疗方案,医生也需要根据各治疗方案的特点选择最适宜的患者进行个体化治疗。关于最优个性化治疗规则的研究主要有两个思路。一种思路是直接最大化在某种个性化治疗规则下的群体平均响应,在某些情况下可以转化为加权分类问题;另一种思路关注给定协变量组合后处理组和控制组的平均响应水平差异,两种治疗方案的效用差异恰好对应了因果作用。通过估计因果作用实现个性化治疗策略的选择,为临床应用提供了极大便利。
【参考文献】

[1] Keisuke, H. , Imbens, G. W. , Rubin, D. B. , & Xiao-Hua, Z. . (2000). Assessing the effect of an influenza vaccine in an encouragement design. Biostatistics.

https://pubmed.ncbi.nlm.nih.gov/12933526/

[2] Wang, L. , Zhou, X. H. , & Richardson, T. S. . (2016). Identification and estimation of causal effects with outcomes truncated by death. Biometrika.

https://academic.oup.com/biomet/article/104/3/597/3957587

[3] Zhao, Y., Zeng, D., Rush, A. J., & Kosorok, M. R. (2012). Estimating individualized treatment rules using outcome weighted learning. Journal of the American Statistical Association.

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3636816/

[4] Guo, W. , Zhou, X. H., & Ma, S. (2020). Estimation of optimal individualized treatment rules using a covariate-specific treatment effect curve with high-dimensional covariates. Journal of the American Statistical Association.

https://www.tandfonline.com/doi/full/10.1080/01621459.2020.1865167

管理学、经济学、社会学及政治学中的研究案例
计量经济学以建立经济计量模型为主要手段,定量分析研究具有随机性特性的经济变量关系,其本质可以归纳为一个因果推断问题。例如,在微观经济学中,我们关心的是某些干预措施对于具体的个体行为的影响,比如班级规模对儿童学习效果有何影响?教授对个人就业及未来收入有何影响?大学教育对未来收入有何影响?在宏观经济学和政策效应评估中,我们关心比如对农民工进行职业培训是否可以增加他们的就业机会和收入水平?限购政策是否能够抑制房价的持续上涨?
本期分享会主要介绍利用观测数据进行因果推断时几种常见的识别策略,包括回归、匹配、工具变量法、双重差分法和断点回归设计。双重差分方法 (Difference in Difference, DID) 适用于事前所有个体都没有受到政策干预,而事后只有一组个体受到政策干预的情形。断点回归设计 (Regression Discontinuity Design, RDD) 则可被视为是一种仅次于随机实验的能够有效利用现实约束条件分析变量之间因果关系的实证方法。
【参考文献】
[1] Zhou Xiang and Yu Xie. “Marginal treatment effects from a propensity score perspective. “ Journal of Political Economy.

https://www.journals.uchicago.edu/doi/abs/10.1086/702172

[2] Yu Xie, Jennie E. Brand, and Ben Jann. Estimating heterogeneous treatment effects with observational data. Sociological Methodology, 42(1),(2012): 314-347.

https://journals.sagepub.com/doi/abs/10.1177/0081175012452652

[3] Jennie E. Brand and Yu Xie. Who benefits most from college? Evidence for negative selection in heterogeneous economic returns to higher education. American Sociological Review, 75(2), (2010): 273-302.

https://journals.sagepub.com/doi/10.1177/0003122410363567

[4] Rajeev H. Dehe jia and Sadek Wahba. Causal effects in nonexperimental studies: reevaluating the evaluation of training programs. Publications of the American Statistical Association, 94(448),(1999):1053-1062.

[5] https://www.tandfonline.com/doi/abs/10.1080/01621459.1999.10473858

Angrist J D, Pischke J S. Mostly harmless econometrics[M]. Princeton university press, 2008.

[6] Huynh V N ,  Kreinovich V ,  Sriboonchitta S . Causal Inference in Econometrics[J]. Studies in Computational Intelligence, 2016.

[7] 赵西亮. 基本有用的计量经济学[M]. 北京大学出版社,2017.
[8] 李井奎. 大侦探经济学[M]. 中信出版社,2021.
因果随机森林及其在工业界的应用
估计异质因果效应,即条件平均因果效应 (Conditional Average Causal Effect, CATE) ,一直以来都是因果推断研究的重要组成。基于树模型的估计 CATE 的方法在学术界被广泛研究,其中最有代表性的是斯坦福大学经济学教授 Susan Athey 的系列工作,包括因果树、因果森林和广义随机森林。广义随机森林 (因果森林是它的特例) 和普通的随机森林最大的区别在于,它是从局部加权估计的角度而不是集成方法的角度来解释的。这种基于森林的临近权重让其相对于其它方法具备灵活性,自适应性和易用性等优点。此外, 它基于局部矩方程的估计量还具备良好的统计性质。近年来,它们更是被广泛应用在工业界互联网商业平台的营销活动中, 可以有效地提高用户参与度和平台收入,例如阿里巴巴和亚马逊的优惠券, 共享乘车优步和滴滴的折扣券,抖音的视频观看金币激励等。估计用户对激励的敏感度 (即 CATE) 是个性化激励关键的第一步。所以因果森林是同时在学术界和工业界都是非常有影响力的工作。
【参考文献】
[1] Athey, Susan, and Guido Imbens. “Recursive partitioning for heterogeneous causal effects.” Proceedings of the National Academy of Sciences 113.27 (2016): 7353-7360.

https://www.pnas.org/content/113/27/7353.short

[2] Wager, Stefan, and Susan Athey. “Estimation and inference of heterogeneous treatment effects using random forests.” Journal of the American Statistical Association 113.523 (2018): 1228-1242.

https://www.tandfonline.com/doi/abs/10.1080/01621459.2017.1319839

[3] (Optional) Hahn, P. Richard, Jared S. Murray, and Carlos M. Carvalho. “Bayesian regression tree models for causal inference: Regularization, confounding, and heterogeneous effects (with discussion).” Bayesian Analysis 15.3 (2020): 965-1056.

https://projecteuclid.org/journals/bayesian-analysis/volume-15/issue-3/Bayesian-Regression-Tree-Models-for-Causal-Inference–Regularization-Confounding/10.1214/19-BA1195.full

多级治疗与连续性暴露
若治疗有多种级别,如何实现稳定的因果效应估计?进一步,考虑对PM2.5作为暴露指标的因果效应估计,作为一个连续暴露指标,如何鲁棒地估计因果效应?事实上,许多观察性研究的数据不能直接采用随机实验的分析方法,因为不可忽略性无法得到保障。然而,在给定均衡得分 (Balance Score) 之后,可以认为数据来自一个分层随机实验。本次分享主题将传统的二元治疗方案中的因果推断方法推广到多级治疗,以及连续型暴露的情形。在二元治疗中,倾向性得分是一维的均衡得分,可以自然地依照估计的倾向性得分进行分层。在多级治疗情形中,利用多元逻辑回归可以实现对倾向性得分的估计,继而可以进一步对总体样本进行分块或修剪,以提升协变量分布的均衡性。但是要实现广义倾向性得分的匹配,需要匹配的维数将转化为T-1,其中T是治疗的状态数,高维倾向性得分的匹配将带来一定的挑战。本期将分享基于弱非混淆性 (Weak Unconfoundedness) 和广义倾向性得分的子类化方法,以实现倾向性得分的一维匹配,从而得到一类更稳健的因果推断估计量。
【参考文献】
[1] Yang, Shu, et al. “Propensity score matching and subclassification in observational studies with multi‐level treatments.” Biometrics 72.4 (2016): 1055-1065.

https://onlinelibrary.wiley.com/doi/abs/10.1111/biom.12505

[2] Wu, Xiao, et al. “Matching on generalized propensity scores with continuous exposures.” arXiv preprint arXiv:1812.06575 (2018).

https://arxiv.org/abs/1812.06575

因果推荐系统
推荐系统能够在“信息过载”的情况下,向用户高效地推荐感兴趣的物品。对于工业界,推荐算法也能够最大限度地吸引客户并提高用户转化率,进而实现公司利润的最大化。亚马逊至少有20%的销售来自推荐算法,Netflix曾宣称有60%的用户是通过推荐系统来找到感兴趣的电影和视频。然而,推荐系统的原始数据中通常隐含许多偏差,例如用户更倾向于选择位置更好的物品,或者比如极其喜欢或不喜欢一个电影的用户更倾向于给电影评分,因此数据集并不能代表总体用户,称之为选择偏差。因果推荐系统给出了一种可行的方案来消除这些偏差,例如双稳健方法等,从因果的角度来讲,其本质问题是要回答干预和反事实问题,例如“如果强迫一个用户看某个电影,他对于电影的评分会是多少?”。本期读书会将结合最新的因果推荐系统的相关成果,例如Recsys,Sigir等,来介绍如果用因果科学的语言来正式定义并解决因果推荐场景中的问题,进而消除偏差,实现更好的推荐效果。
【参考文献】
[1] Bonner S, Vasile F. Causal embeddings for recommendation[C]//Proceedings of the 12th ACM conference on recommender systems. 2018: 104-112.
https://dl.acm.org/doi/abs/10.1145/3240323.3240360
[2] Sato M, Takemori S, Singh J, et al. Unbiased learning for the causal effect of recommendation[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 378-387.
https://dl.acm.org/doi/10.1145/3383313.3412261
[3] Mehrotra R, Bhattacharya P, Lalmas M. Inferring the Causal Impact of New Track Releases on Music Recommendation Platforms through Counterfactual Predictions[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 687-691.
https://dl.acm.org/doi/abs/10.1145/3383313.3418491
[4] Wang Y, Liang D, Charlin L, et al. Causal inference for recommender systems[C]//Fourteenth ACM Conference on Recommender Systems. 2020: 426-431.
https://dl.acm.org/doi/abs/10.1145/3383313.3412225
因果在自然语言处理中的应用
设想一家医学研究中心希望建立一个分类器,从病人医疗记录的文本叙述中检测临床诊断。 这些记录由多个医院站点组成,其中每个站点目标临床状况的频率和叙述的写作风格都有所不同。 当分类器应用于不属于训练集的站点的记录时,它的准确率会下降。 事后分析表明,它在表面上不相关的特性上投入了大量的精力,比如医院的写作风格。 事实上,我们希望一个鲁棒的预测器能够着重于依据医疗状态而非写作风格进行预测 ,即在干预写作风格等混淆因素时,分类器能够保持结局指标稳定。 为此,自然语言处理建模的最新进展可以帮助研究人员用文本数据做出因果结论,并且来自因果推断的想法可以用来使自然语言处理模型更加鲁棒且具有解释性。 对于因果和自然语言处理的结合,当文本信息作为潜在结果时,其难点是从高维文本信息实现有效降维; 当文本信息作为混淆因素时,其难点是利用自然语言处理方法来限制混淆; 当文本信息作为治疗状态时,其难点是潜在结果框架下分配机制的可忽略性和正概率假设。 本期读书会将介绍不变性测试和敏感性测试,以及利用反事实样本增强方法以获取更稳健的因果效应估计。
【参考文献】
[1] Feder, Amir, et al. “Causal Inference in Natural Language Processing: Estimation, Prediction, Interpretation and Beyond.” arXiv preprint arXiv:2109.00725 (2021).

https://arxiv.org/abs/2109.00725

[2] Egami, Naoki, et al. “How to make causal inferences using texts.” arXiv preprint arXiv:1802.02163 (2018).

https://arxiv.org/abs/1802.02163

[3] Keith, Katherine A., David Jensen, and Brendan O’Connor. “Text and causal inference: A review of using text to remove confounding from causal estimates.” arXiv preprint arXiv:2005.00649 (2020).

https://arxiv.org/abs/2005.00649

因果与公平性和可解释性

在机器学习模型被广泛应用于各行各业的今天,对于一些高风险的决策问题,例如AI在判断一个人的信用卡/借贷申请是否应该通过时,或是HR判断一个人的简历是否合格时,人们开始关注机器学习模型的可解释性和公平性问题。可解释性的目的是回答“模型做出预测时利用了哪些信息?哪些信息在预测中更重要?”这样的问题。而公平性则关注机器学习模型做出的预测是否对不同的人群(如性别,年龄,种族)或者个体公平。本期读书会将结合一些近期发表在一流会议和期刊上的论文,介绍几种借助因果推断来提高机器学习可解释性和公平性的方法。

【参考文献】

[1] Vig, Jesse, et al. “Investigating Gender Bias in Language Models Using Causal Mediation Analysis.” NeurIPS. 2020.

[2] Kusner, Matt, et al. “Counterfactual fairness.” Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017.

https://arxiv.org/abs/1703.06856

[3] Kilbertus, Niki, et al. “The sensitivity of counterfactual fairness to unmeasured confounding.” Uncertainty in Artificial Intelligence. PMLR, 2020.

http://proceedings.mlr.press/v115/kilbertus20a.html

[4] Chiappa, Silvia. “Path-specific counterfactual fairness.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. No. 01. 2019.

https://ojs.aaai.org//index.php/AAAI/article/view/4777

[5] Feder, Amir, et al. “Causalm: Causal model explanation through counterfactual language models.” Computational Linguistics 47.2 (2021): 333-386.

https://arxiv.org/abs/2005.13407

特别鸣谢:本文的主题内容由中国科学院计算技术研究所博士生李奉治和北京大学大数据科学研究中心博士生李昊轩设计并撰写,由中国地质大学 (北京) 博士生段月然组织和编辑,特别感谢普林斯顿大学研究员黄俊铭、剑桥大学博士生陆超超、香港城市大学助理教授郭若城、中国科学技术大学博士生龚鹤扬等成员提供的内容和反馈。
因果科学社区由智源社区、集智俱乐部共同推动,面向因果科学领域的垂直型学术讨论社区,目的是促进因果科学专业人士和兴趣爱好者们的学习、交流和合作,推进因果科学学术、产业生态的建设和落地,孕育新一代因果科学领域的学术专家和产业创新者。加入任意一季读书会即可加入因果社区。

点击“阅读原文”,报名读书会