机器学习lasso回归——从源头控制遗漏变量问题
遗漏变量是导致内生性问题的主要原因之一。倘若在选取变量阶段将所有潜在的控制变量进行回归,显著的变量纳入主回归,是否就可以从源头控制样本选择偏误产生的内生性问题呢?
当然,如果我们采用OLS如此操作,潜在的多重共线性问题可能会让真正对模型存在影响的变量不显著。在已有的研究中,多采用似然估计完成这一步骤,比如logit或probit。但似然估计更适用于非连续性变量,机器学习lasso回归很好的针对连续型变量进行了筛选。
lasso回归对高维变量的处理尤其友好,通过施加惩罚系数来解决多变量可能导致的估计结果失真问题。由于套索回归不汇报标准误和置信区间,在经济领域不推荐在主回归上使用。比如在这篇工作论文中,作者通过套索回归从30多个可能影响流动人口生育意愿的因素中筛选了其中的12个作为控制变量:
Jingwen Tan, Shixi Kang (Sep. 2021) “Urban Housing Prices and Floating Population’s Willingness to Fertility——Empirical analysis based on China Migrants Dynamic Survey 2018”
lasso筛选变量的功能在工具变量回归中也有用武之地。当一个变量有较多的工具变量时,可以通过套索回归筛选出最强的工具变量进行使用。比如此篇文章:
抑郁倾向对劳动收入的影响 ——基于 LASSO 回归的工具变量识别;张晓明,向迪,刘生龙;《产业经济评论》;2021年第2期
Stata 16以上版本可以进行lasso回归,具体语法与ols大致相同,首先算出最优调节参数:
lasso linear y (X) x1 x2 x3, nolog selection(cv,alllambdas) stop(0) rseed(12345)(代码中的X为核心解释变量,x1 x2为控制变量)
然后通过另一道命令展示回归参数:
lassocoef, display(coef, penalized) sort(coef, penalized)
lasso若仅作为稳健性检验,以上两组的汇报情况足够说明结果。