随着“因果革命”在人工智能与大数据领域徐徐展开,作为连接因果科学与深度学习桥梁的因果表征学习,成为备受关注的前沿方向。以往的深度表征学习在数据降维中保留信息并过滤噪音,新兴的因果科学则形成了因果推理与发现的一系列方法。随着二者结合,因果表征学习有望催生更强大的新一代AI。
新一季的
因果表征学习读书会
已经启动,欢迎从事相关研究的各界朋友参与。
研究领域:因果树模型,因果森林
因果树模型的主要贡献是“诚实”
(Honest)
的方法[1]。因果树模型的两个核心问题:一是如何分割特征空间,二是如何估计子空间上的因果效应。“诚实”的方法就是说,将一半的样本用于树的生成,确定分割特征空间的准则,另一半的样本用于树的叶子结果预测,估计子空间上的因果效应,用于控制树的复杂度。相较于传统的“自信”
(Adaptive)
的方法,“诚实”的方法有较好的泛化能力,这类似于机器学习中
交叉验证
的思想。
那么,为什么要用“诚实”的方法而不直接使用交叉验证?一方面,因为使用的样本是独立的,因此在估计子空间上的因果效应时,使用“诚实”的方法得到的结果会是无偏的。另一方面,实验结果显示,“诚实”的方法相较于非“诚实”的方法能够覆盖更大的置信区间。也就是说,因果树具备良好的统计性质。
广义随机森林的创新点有:1. 总体思想是使用“诚实”的方法,“诚实”地估计局部参数;2. 利用算法本身的信息进行估计,例如,基于随机森林的权重进行估计、利用得分函数进行估计等。
在利用得分函数进行估计时,工具变量的结构信息及其得分函数如下:
综上,因果树区别于普通的机器学习树模型的点在于,估计的内容是子空间的因果效应,与增益树的最大区别在于“诚实”的方法避免了过拟合。
智能营销要研究的核心问题是,用户对不同补贴额度的转化效果差异有多大?这些不同的补贴额度可以被看作是因果推断中的 treatments,所以场景驱使研究者去研究用户在不同 treatments 下的转化效果,即需要多元因果模型。
为此,快手的研究者们提出了多元因果森林模型,模型结构如图 7所示。其主要的优化内容,一是适应业务特别的改造,二是分配算法的速度优化,三是适应问题的评估方法。
该模型结构有两个优点:第一,单一一个模型能够同时处理任意种干预手段,否则,几种干预手段就需要维护相应数量的二元因果森林模型;第二,HTE 的定义要求各干预手段对应一致的特征子空间,该模型结构保证了这一点,这对准确估计 HTE 至关重要。
Athey S, Imbens G. Recursive partitioning for heterogeneous causal effects[J]. Proceedings of the National Academy of Sciences, 2016, 113(27): 7353-7360.
Wager S, Athey S. Estimation and inference of heterogeneous treatment effects using random forests[J]. Journal of the American Statistical Association, 2018, 113(523): 1228-1242.
Athey S, Tibshirani J, Wager S. Generalized random forests[J]. The Annals of Statistics, 2019, 47(2): 1148-1178.
Athey S, Imbens G W. Machine learning methods that economists should know about[J]. Annual Review of Economics, 2019, 11: 685-725.
Tran C, Zheleva E. Learning triggers for heterogeneous treatment effects[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 5183-5190.
Evidence-Based Policy Learning(CLeaR 2022 Oral)
Nandy P, Yu X, Liu W, et al. Generalized Causal Tree for Uplift Modeling[J]. arXiv preprint arXiv:2202.02416, 2022.
Tan X, Chang C C H, Tang L. A tree-based federated learning approach for personalized treatment effect estimation from heterogeneous data sources[J]. arXiv preprint arXiv:2103.06261, 2021.
Zeng S, Bayir M A, Pfeiffer III J J, et al. Causal transfer random forest: Combining logged data and randomized experiments for robust prediction[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021: 211-219.
因果之梯: 结构因果模型文献推荐
Pearl J. The seven tools of causal inference, with reflections on machine learning[J]. Communications of the ACM, 2019, 62(3): 54-60.
Schölkopf B. Causality for machine learning[M]//Probabilistic and Causal Inference: The Works of Judea Pearl. 2022: 765-804.
On Pearl’s Hierarchy and the Foundations of Causal Inference
Bongers, Stephan, et al. “Foundations of structural causal models with cycles and latent variables.” The Annals of Statistics 49.5 (2021): 2885-2915.
1. Athey S, Imbens G. Recursive partitioning for heterogeneous causal effects[J]. Proceedings of the National Academy of Sciences, 2016, 113(27): 7353-7360.
2. Ai M, Li B, Gong H, et al. LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm[C]//Proceedings of the ACM Web Conference 2022. 2022: 2310-2319.
随着“因果革命”在人工智能与大数据领域徐徐展开,作为连接因果科学与深度学习桥梁的因果表征学习,成为备受关注的前沿方向。以往的深度表征学习在数据降维中保留信息并过滤噪音,新兴的因果科学则形成了因果推理与发现的一系列方法。随着二者结合,因果表征学习有望催生更强大的新一代AI。
集智俱乐部组织以“因果表征学习”为主题、为期十周的读书会,聚焦因果科学相关问题,共学共研相关文献。欢迎从事因果科学、人工智能与复杂系统等相关研究领域,或对因果表征学习的理论与应用感兴趣的各界朋友报名参与。集智俱乐部已经组织三季“因果科学”读书会,形成了超过千人的因果科学社区,
因果表征学习读书会
是其第四季,现在加入读书会即可参与因果社区各类线上线下交流合作。