内生性问题及其产生原因
最近想回来多写点计量经济学小文章。内生性问题,很多人已经把它介绍地很好了,但也不妨碍我为查资料的朋友提供更多线索。
1. “内生性”名称的由来
现在人们说某个模型有内生性问题(endogeneity issue),是指模型中的 一个或多个解释变量与误差项存在相关关系 。
显然,这个解释和内生性这个名字有点不搭。其实内生性问题字面含义是指模型中的 解释变量 有内生性(endogeneity)。
在一个模型中,有些变量的值是在模型内部决定的,是内生的(endogenous);有些变量的值是被模型外界决定的,是外生的(exogenous)。在一般模型中,被解释变量应该是内生的,解释变量应该是外生的,解释变量的取值是不能被我们的模型所决定的。内生性问题字面意思指的是解释变量不是完全外生了,有了内生性了。
此种内生性问题的一个常见症状就是解释变量和误差项存在相关关系。但不知从什么时候起,人们开始把一切“解释变量和误差项存在相关关系”的情况都叫做内生性问题了,也不管它是什么原因导致的。(关于这一点,可以参考Dougherty《introduction to econometrics》第十章和Wooldridge《Introductory Econometrics》第三章)
所以就这么叫吧,没什么好纠结的了。
2. 存在内生性问题的后果
内生性会破坏参数估计的“一致性”。
参数估计的“一致性”就是指当样本量很大时,用样本估计出的参数会无限趋近于总体的真实参数。当我们用样本估计出的参数没有了一致性,那它也就没什么参考价值了。
3. 内生性问题的产生原因
主要有以下几种,当然也不完全,我用简单的单方程线性模型举例:
1)测量误差(measurement error)
测量误差指的是模型使用的 解释变量 的数值和真实数据有误差。假如解释变量 x 出现了测量误差,我们测得的数据为 x^{*} ,二者之间有了一个误差 v :
x^{*}_{i}=x_{i}+v_{i} (1)
如果真实值 x 和 y 有这样的关系:
y_{i}=\alpha+\beta x_{i}+\varepsilon_{i} (2)
那么把 x^{*} 替换进去的话就是:
y_{i}=\alpha+\beta(x^{*}_{i}-v_{i})+\varepsilon_{i} (3)
y_{i}=\alpha+\beta x^{*}_{i}+(-\beta v_{i}+\varepsilon_{i}) (4)
式(4)告诉我们,如果我跑一个 y 对 x^{*} 的回归,我将得到的误差项就等于 (-\beta v+\varepsilon) 。于是解释变量和误差项的协方差:
Cov(x^{*},(-\beta v+\varepsilon))
=Cov((x+v),(-\beta v+\varepsilon))
=Cov(v,(-\beta v+\varepsilon))
不等于0,根据定义,模型(3)就有了内生性问题。
注意,从式(3)到式(4), v 被整个儿归入到了误差项,因为我假设这里的 x 和 v 是相互独立的。做这个假设完全是为了方便书写,试想如果 x 和 v 不相互独立,那么为了让误差项更小, \beta x^{*}_{i} 项一定会“接纳”一些从 v 中“拆”出来的 x 的线性项,其余的才归入误差项。显然这不影响我们的结论。
被解释变量的测量误差不会导致内生性,在这儿就不推导了。
2)遗漏解释变量(explanatory variable omitted)
现实问题总是复杂的,一般情况下,谁也没办法找到所有能影响被解释变量的变量,遗漏解释变量几乎是不可避免的。 但如果被遗漏的解释变量 x_{1} 不光对 y 有影响,还对某个解释变量 x_{2} 有影响,内生性问题就出现了 。
我们假设 x_{1} 、 x_{2} 和 y 的关系如下:
y=\alpha+\beta_{1} x_{1}+\beta_{2} x_{2}+\epsilon (5)
其中 Cov(x_{1},\epsilon),Cov(x_{2},\epsilon)=0 ,且解释变量之间有:
x_{2}=\gamma x_{1}+\varepsilon (6)
此时我们将式(5)中的 x_{1} 遗漏,那么式(5)的 \beta_{1} x_{1} 项中和 x_{2} 有线性关系的部分 \frac{\beta_{1}}{\gamma}x_{2} 将被归到 \beta_{2} x_{2} 项中,改变 x_{2} 前面的系数;剩余部分 \frac{\beta_{1}}{\gamma}\varepsilon 将被归入误差项。那么:
Cov(x_{2},\varepsilon)=Cov(\gamma x_{1}+\varepsilon,\varepsilon) ,
不等于0,所以最终解释变量 x_{2} 与误差项将有相关性。
著名的选择性偏误(selection bias)或者叫样本自选择(self-selection)本质上也是遗漏解释变量问题。用Angrist的例子来说,我们不能通过比较MIT学生和UMass学生毕业后的收入来得出“上名校使人有更高收入”这一结论,因为有别的变量在同时影响着学校选择和毕业后的收入,如智商、家庭背景等,并且这些变量一般难以度量。
有人也许会问,既然被遗漏的 x_{0} 对 x_{1} 有影响,如果将 x_{0} 加入模型,从字面意思来看, x_{1} 不就有内生性了吗?
其实这种解释变量相互影响的情形一开始就不算“内生性”问题。内生和外生这两个说法最早来源于联立方程模型,也就是几个方程一起构成的模型。在联立方程模型中, x_{1} 这种变量就成了中间变量,而不是真正的解释变量,就不必要完全外生了。
3)互为因果(simultaneity)
被解释变量能够反过来影响解释变量的情况被称为互为因果,有时也被称为反向因果(reverse causality)。设想我们设计了这样的模型:
y_{i}=\alpha+\beta x_{i}+\varepsilon_{i} (7)
但同时, y 又反过来影响着 x :
x_{i}=\alpha_{1}+\beta_{1}y_{i}+\epsilon_{i} (8)
联立(7)(8)我们能够解得:
x_{i}=\frac{\alpha_{1}+\alpha\beta_{1}+\beta_{1}\varepsilon_{i}+\epsilon_{i}}{1-\beta\beta_{1}} (9)
对于模型(7)来说,解释变量 x 和误差项 \varepsilon 是有相关性的,因此内生性问题存在。
即使不考虑这些推导,互为因果这种情况,解释变量由被解释变量决定,多么直白的内生性!
4. 内生性问题的解决方法
内生性的解决方法有很多,IV、Heckman两步法、matching类、DID...这个太多人写过了,我就不重复了。但我有一个忠诚的建议,就是在选择方法之前梳理一下自己的处理逻辑,弄清楚到底内生性问题是由什么引起的。计量经济学的迷人(或者说迷我)之处就在于故事的完整性、逻辑的严密性,如果机械地套用方法,文章就失去了灵魂。
式(9)之前写错了,感谢 @木子木公 指出,已改正。