编者按:本文的是如下论文的 Stata 实操版本
Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022 , Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link- , -PDF-

1. 背景简介

近年来,研究人员在实证研究中经常使用多通道聚类的抽样数据展开分析:如匹配后的雇主-雇员数据、匹配后的学生-教师数据、观察结果按商店和产品双重索引的匹配数据、以及观察结果按市场和产品双重索引的市场份额数据等。

这些数据通常会面临着多维相关性的问题,并不符合独立同分布的性质。并且,如果只在单一层面估计聚类标准误,就会难以兼顾另一层面相关性对结果所造成的偏误。

因此,Chiang et al.(2022)利用 Chernozhukov et al.(2018)开发的 DML工具箱(Double Machine Learning:用于估算和推断具有高维和/或无限维干扰参数的结构参数),提出了一种改进的多向交叉拟合DML估计方法,使之适应多向聚类采样数据,提升估计结果的有效性。

为了推广这一估计方法的使用,Chiang et al.(2022) 编写了 crhdreg 命令,用于估计双重聚类稳健的标准误、以及估计使用偏置机器学习(DML)方法的高维回归结果。

下文将详细介绍 crhdreg 命令的使用方法。

全文阅读: Stata:双重机器学习-多维聚类标准误的估计方法-crhdreg| 连享会主页

近年来,研究人员在实证研究中经常使用多通道聚类的抽样数据展开分析:如匹配后的雇主-雇员数据、匹配后的学生-教师数据、观察结果按商店和产品双重索引的匹配数据、以及观察结果按市场和产品双重索引的市场份额数据等。这些数据通常会面临着多维相关性的问题,并不符合独立同分布的性质。并且,如果只在单一层面估计聚类标准误,就会难以兼顾另一层面相关性对结果所造成的偏误。
DoubleML-Python中的双机学习 Python软件包DoubleML提供了的 双重 /无偏 机器学习 框架的 。 它建立在(Pedregosa等,2011)。 请注意,Python软件包是与基于的R twin一起开发的。 R包也可以在和 。 文档和维护 文档和网站: : DoubleML当前由和维护。 可以将错误报告给问题跟踪器,为 。 双重 /无偏 机器学习 部分线性回归模型(PLR) 部分线性IV回归模型(PLIV) 互动回归模型(IRM) 交互式IV回归模型(IIVM) DoubleML的面向对象的实现非常灵活。 模型类DoubleMLPLR , Doub
DoubleML-R中的 双重 机器学习 R包DoubleML提供了的 双重 /无偏 机器学习 框架的 。 它建立在和(Lang等人,2019)。 请注意,R包是与基于的python twin一起开发的。 python包也可以在和 。 文档和维护 R中的功能文档: : 用户指南: : DoubleML当前由和维护。 双重 /无偏 机器学习 框架 部分线性回归模型(PLR) 部分线性IV回归模型(PLIV) 互动回归模型(IRM) 交互式IV回归模型(IIVM) 基于的DoubleML的面向对象的实现非常灵活。 模型类DoubleMLPLR , DoubleMLPLIV , DoubleMLIRM和DoubleIIVM通过 机器学习 方法 和Neyman正交得分函数的计算来实现对有害功能的 估计 。 所有其他功能都在抽象基类DoubleML 。 特别是用于 估计 双重 机器学习 模型并通过
线性模型可以是用曲线拟合样本,但是分类的决策边界一定是直线的,例如logistics模型 区分是否为线性模型,主要是看一个乘法式子中自变量x前的系数w,如果w只影响一个x,那么此模型为线性模型。或者判断决策边界是否是线性的 神经网络是非线性的 虽然神经网络的每个节点是一个logistics模型,但是组合起来就是一个非线性模型。 此处我们仅仅考虑三层神经网络 2. 计算特征相关性的 方法 ,特征...
EconML:用于基于ML的异构处理效果 估计 的Python包 EconML是一个Python软件包,用于通过 机器学习 从观察数据中 估计 异构处理效果。 此软件包是作为Microsoft Research的一部分设计和构建的,目的是将最新的 机器学习 技术与计量经济学相结合,以使自动化解决复杂的因果推理问题。 EconML的承诺: 在计量经济学和 机器学习 的交集中实现文献中的最新技术 保持建模效果异质性的灵活性(通过诸如随机森林,增强,套索和神经网络之类的技术),同时保留对所学模型的因果解释,并经常提供有效的置信区间 使用统一的API 建立在用于 机器学习 和数据分析的标准Python软件包的基础上 机器学习 的最大希望之一就是在众多领域中自动化决策。 许多数据驱动的个性化决策方案的核心是对异构处理效果的 估计 :对于具有特定特征集的样本,干预对感兴趣结果的因果关系是什么? 简而言之,该工具包旨在测量某些治疗变量T对结果变量Y的因果效应,控制一组特征X, W以及该效应如何随X 。 所实施的 方法 甚至适用于观测(非实验或历史)数据集。 为了使 估计 结果具有因果关系,有些 方法 假定没有观察到的混杂因素(即, X,
一、为什么? 对样本做回归分析的核心是使用最小二乘法去 估计 模型里的参数,比如核心解释变量前面的系数。我们通过最小二乘法使得残差平方和最小,求得样本 估计 系数。如果进行一次 估计 ,由于干扰项e的存在, 估计 值与真实值之间一定存在差异。样本 估计 值与真实值之间的差别中,误差项起了关键作用。 误差项是一个随机变量,每次 估计 都会得到不同的差异值。关于样本 估计 系数性质的讨论,都以误差项为核心。我们希望样本 估计 系数特别好,接近真实值,所以必须有良好的性质,而良好的性质需要有前提条件,也就是一些假设。 比如,我们希望反复抽
个人 Stata 学习笔记,代码源文件来自陈强老师教材。由于markdown文件上传丢失格式,部分公式显示可能存在一定问题,不过会typora语法的应该可以很容易看明白。另外也附上了一些截图 为直观理解总体回归函数(PRF)与样本回归函数的关系(SRF),使用蒙特卡罗法进行模拟。所谓“蒙特卡罗法”(Monte Carlo Methods,MC),是通过计算机模拟,从总体抽取大量随机样本的计算 方法 。 1.预备知识: 若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2) 第一章、简介 本文基于吴恩达人工智能课程做学习笔记、并融入自己的见解(若打不开请复制到浏览器中打开)https://study.163.com/courses-search?keyword=吴恩达。 本文第二章介绍ML策略的正.
DDML 双重 机器学习 方法 是一种用于处理因果推断的 方法 ,它可以在处理大量协变量时控制偏差,同时保持精度和可解释性。以下是用于政策评估的 Stata 代码示例: 首先,我们需要加载ddml程序: net install ddml, from("https://raw.githubusercontent.com/ryxcommar/ddml/master") replace 然后,我们需要准备数据。假设我们有两个变量-自变量X和因变量Y,还有一个处理变量T。我们可以使用以下代码将数据准备成DDML所需的格式: // 为每个t创建一个虚拟变量 tab T, gen(dummies) // 使用ddml的setup命令创建ddml所需的格式 ddml setup Y X1 X2 X3 T_1 T_2 T_3, dummies(T_1 T_2 T_3) 在创建ddml格式之后,我们可以使用以下命令来 估计 处理效应: // 使用ddml命令 估计 处理效应 ddml Y X1 X2 X3, treat(T) model(lm) 其中,treat(T)指定T为处理变量,model(lm)指定线性模型。 我们还可以使用以下命令来进行 双重 机器学习 : // 使用ddml命令进行 双重 机器学习 ddml Y X1 X2 X3, treat(T) model(lm) ivmodel(lm) bootstrap 其中,ivmodel(lm)指定使用线性模型进行工具变量 估计 ,bootstrap指定使用自助法进行 标准误 估计 。 以上是DDML 双重 机器学习 方法 用于政策评估的 Stata 代码示例。