高级计量经济学 16:短面板(上) (修正1)

高级计量经济学 16:短面板(上) (修正1)

在读 paper 的时候,发现自己对短面板的框架逻辑有不全面的地方,在这里对各位读者说声对不起!

这是船新的版本,我将自己的理解融入其中,笔记顺序与教材不同。

毕竟我也是现学现卖,敬请谅解!

此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。

我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分( 包括证明和正文 )做了修改。

仅供学习参考,请勿转载,侵删!

15 短面板 15.1 面板数据的特点
  • 15.1.1 面板数据
  • 15.1.2 面板数据的优缺点
  • 15.2 个体效应模型
  • 15.2.1 面板数据的估计策略
  • 15.2.2 对扰动项的讨论
  • 15.2.3 个体效应模型的两大类:固定效应和随机效应
  • 15.3 混合回归
  • 15.4 固定效应模型的估计方法
  • 15.4.1 个体固定效应
  • a. 组内估计量
  • b. LSDV(虚拟变量法)
  • c. 一阶差分法
  • 15.4.2 时间固定效应
  • a. LSDV(虚拟变量法)
  • b. 时间趋势项
  • 15.1 基本术语

    15.1.1 面板数据

    面板数据 ( panel data ),也译为 平行数据 ( longitudinal data ),指的是在一段时间内跟踪同一组个体( individual )的数据。它既有横截面的维度( n 个个体 ),又有时间维度( T 个时期 )。

    比如,一个 T=3 的面板数据结构如表 15.1 所示:

    通常的面板数据 T 较小,而 n 较大,在使用大样本理论时让 n\to\infty 。这种面板数据被称为 短面板 ( short panel )。反之,如果 T 较大而 n 较小,则被称为 长面板 ( long panel )。

    如果在面板数据中,每个时期的样本中的个体完全一样,则称为 平衡面板数据 ( balanced panel );反之,则称为 非平衡面板数据

    在面板 模型 中,如果解释变量包含被解释变量的滞后值,则称为 动态面板 ( dynamic panel );反之,称为 静态面板 ( static panel )

    15.1.2 面板数据的优缺点

    (1) 面板数据的优点

  • 可以解决遗漏变量的问题 :遗漏变量偏差是一个普遍存在的问题。虽然可以用工具变量法解决,但有效的工具变量常常很难找。遗漏变量常常是由于不可观测的个体差异或 异质性 ( heterogeneity )造成的,如果这种个体差异 不随时间而改变 ( time invariant ),则面板数据提供了遗漏变量问题的又一利器

  • 提供更多个体动态行为的信息 :由于面板数据同时有横截面与时间两个维度,有时它可以解决单独的横截面数据或时间序列数据所不能解决的问题。比如,考虑如何区分 规模效应与技术进步 对企业生产效率的影响。对于 截面数据 来说,由于没有时间维度,故无法观测到技术进步;对于单个企业的 时间序列 来说,又无法区分生产效率的提高究竟有多少是来自于规模扩大,又有多少是来自于技术进步。

  • 样本容量大 :由于同时有截面维度与时间维度,通常数据的样本容量更大,从而可以提高估计的精确度。

  • (2) 截面数据的缺点

    当然,截面数据也会带来一些问题:

  • 样本数据通常不满足 \rm i.i.d. 的假定,因为同一个体在不同时期的扰动项一般存在自相关
  • 收集成本高,不易获得
  • 15.2 个体效应模型

    15.2.1 面板数据的估计策略

    估计面板数据的 一个极端策略 是将其看成横截面数据而进行 混合回归 ( pooled regression ),即要求样本中每个个体都拥有完全相同的回归方程( 在 15.3 讨论 )。 另一个极端策略 是为每个个体估计一个单独的回归方程。

    前者忽略了个体间不可观测或被遗漏的异质性,而该异质性可能与解释变量相关而导致估计不一致;后者则忽略了个体间的共性,也可能没有足够的的样本容量。

    因此,在实践中常常采用折衷的估计策略:即假定个体的回归方程拥有 相同的斜率 ,但可以拥有 不同的截距 ,以此来捕捉异质性,如 图 15.1 所示:

    这种模型被称为 个体效应模型 ( individual-specific effects model ),其模型形式为:
    其中, \boldsymbol z_i 为不随时间而变( time invariant )的个体特征( 即 \boldsymbol z_{it} = \boldsymbol z_i, \forall t ),比如性别;而 \boldsymbol{x}_{i t} 则可以随个体及时间而变( time-varying )。扰动项由 (u_i+\varepsilon_{it}) 两部分构成,成为 复合扰动项 ( composite erroe term ),而方程 (15.1) 也称为 复合扰动项模型 ( error compoents model )。

    15.2.2 对扰动项的讨论

    较早的文献有时将 u_i 视为 常数 ,但这也只是随机变量的特例,即退化的随机变量;而 \varepsilon_{it} 为随个体与时间而改变的扰动项。

    我们主要关注 u_i ,这是因为“个体效应模型”的 个体特征 来源于 u_iu_i 几何上 代表个体异质性的截距;在 统计上 则代表一个扰动项:

    几何上,沿用较早文献的想法,我们直接认为它就是 截距 就可以了。 u_i 这个扰动项并不是“真正的”扰动项,“真正的扰动项”是 \varepsilon_{it} 。你可以认为 u_i 是某个个体的 禀赋

    举个例子,我们在研究不同个体的受教育水平对其的收入的影响时,我没有把智力因素加入解释变量中。于是 u_i 可能 是每个个体的智力因素(注意,它并 非解释变量 )。因为每个个体的智力本身是天生决定的,是随机的;但在出生以后,他的智力又不再随时间而变了。

    像智力水平这种 不随时间而变的扰动项 ,你可以认为这是一个 个体天生的禀赋 或者说 个体天生的差异 ,它表现为“不同的截距”,也就是我们常津津乐道的“输在起跑线上”。

  • 统计上,方程 (15.1) 实际上是糅合了 两个回归模型
    对这两个模型,分别有属于自己的扰动项, \varepsilon_{it}u_i ,加起来就是个体效应模型了。这样可以更好理解 复合扰动项 的说法,不过就难以理解 截距 个体效应 的说法了。

  • 15.2.3 个体效应模型的两大类:固定效应和随机效应

    在短面板,我们假设 \{\varepsilon_{it}\} 为独立同分布(长面板可以放松此假定),且与 u_i 不相关。另外,

  • 如果 u_i 与某个解释变量 \boldsymbol x_{it}\boldsymbol z_i 相关,则进一步称为 固定效应模型 ( Fixed Effects Model, FE)。这种情况下, OLS估计是不一致的 解决的方法是将模型转换

  • 如果 u_i 与所有解释变量 (\boldsymbol{x}_{i t},\boldsymbol z_i) 都不相关,则进一步称为 随机效应模型 ( Random Effects Model, RE)。从经济理论的角度看,随机模型比较少见,但仍需要通过数据来检验究竟使用 FE 还是 RE。

  • 显然,与截面数据相比,面板数据提供了更为丰富的模型与估计方法。

    请十分十分重视“ u_i 与某个解释变量 \boldsymbol x_{it}\boldsymbol z_i 是否相关”这一论断

  • 如果 u_i 与某个解释变量 \boldsymbol x_{it}\boldsymbol z_i 相关,那么我们就没有办法准确地估计 \boldsymbol \beta ,这是内生性问题
  • 为了准确地估计 \boldsymbol \beta ,我们的核心思想是 如何消除内生性问题
  • 解决的办法有很多:我们可以 消去 u_i ,也可以人工增加一些如“虚拟变量”“时间趋势”,把 内生的信息从 u_i 中手动剥离出来
  • 先给放一个逻辑框架,免得大家混淆本文后面的模型和估计方法。

    混合回归模型 (没有个体效应) 个体效应模型 (有个体效应) 固定效应模型 u_i 与某个解释变量 \boldsymbol x_{it}\boldsymbol z_i 相关) 个体固定效应
  • 组内估计量 (处理方法) + OLS (估计方法)
  • LSDV法 (处理方法,即虚拟变量) + OLS (估计方法)
  • 一阶差分法 (处理方法) + OLS (估计方法)
  • 时间固定效应
  • 虚拟变量 (处理方法) + OLS (估计方法)
  • 时间趋势项 (处理方法) + OLS (估计方法)
  • 如果所有个体都拥有完全一样的回归方程,也就是说每个个体 连截距项都相同 ,那么方程 (15.1)u_i 就都相等。我们记 \alpha 为截距,即 u_1 = \cdots =u_i\equiv \alpha ,那么方程 (15.1) 就可以写成:
    其中, \boldsymbol x_{it} 不包含常数项。这样,就可以把所有的数据放在一起,像对待横截面数据那样进行 OLS 回归,故被称为 混合回归 ( polled regression )。混合回归可以被称为 总体平均估计量 ( Population-averaged estimator, PA),因为可以把它理解为 将个体效应都平均掉了

    由于面板数据的特点,虽然通常可以假设不同个体之间的扰动项相互独立,但同一个体在不同时间的扰动项之间往往存在自相关。此时,对标准误的估计应该使用 聚类稳健的标准误 ( cluster-robust standard error ),而所谓聚类( cluster ),就是由每个个体不同时期的所有观测值所组成。同一聚类(个体)的观测值允许存在相关性,而不同聚类(个体)的观测值则不相关。

    混合回归的基本假设是 不存在个体效应 u_i 对于这个假设必须进行统计检验 。由于个体效应以两种不同的形态存在:固定效应、随机效应,故在下面会分别介绍其检验方法。

    15.4 固定效应模型的估计方法

    固定效应模型是指 u_i 与某个解释变量 \boldsymbol x_{it}\boldsymbol z_i 相关的个体效应模型。换句话说,由于存在一些遗漏变量,使得 u_i 与解释变量产生内生性。所以,固定效应模型求解的关键就是 如何排除内生性的干扰

    总的来看, u_i 与某个解释变量 \boldsymbol x_{it}\boldsymbol z_i 相关分成两种情况:

    u_i 不随时间而变但随个体而异 的遗漏变量问题,解决这问题的模型我们称为 个体固定效应模型 u_i 不随个体而变但随时间而异 的遗漏变量问题,解决这类问题的模型称为 时间固定效应模型

    我们下面来探讨如何对两种固定效应模型进行处理。

    15.4.1 个体固定效应

    a. 组内估计量

    思想:消去 u_i 消除 内生性

    优点:易于操作和理解

    缺点:无法估计固定效应,需要严格外生性假设

    如果 u_i 与某个解释变量 \boldsymbol x_{it}\boldsymbol z_i 相关,那么此个体效应模型就变成了 固定效应模型 。这种情况下, OLS估计是不一致的 。为了得到一致的 \boldsymbol{\beta} 估计量,解决的方法是将模型转换,并将 u_i 消去。

    给定个体 i ,将方程 (15.1) 两边对时间取平均,可得:
    (15.3)-(15.1) 则可以得到原模型的 离差形式
    那么 (15.4) 就变成了:
    在公式 (15.5) 中, u_i 已经被消去,故只要 \tilde{{\varepsilon}}_{it}\tilde{\boldsymbol{x}}_{it} 不相关,就可以使用 OLS 一致地估计 \boldsymbol{\beta} ,称为 固定效应估计量 ( Fixed Effects Estimator ),记为 \hat{\boldsymbol{\beta}}_{\rm FE} 。由于 \hat{\boldsymbol{\beta}}_{\rm FE} 使用了每个个体的组内离差信息,故也被称为 组内估计量 ( within estimator )。即使个体特征 u_i 与解释变量 \tilde{\boldsymbol{x}}_{it} 相关,只要使用组内估计量,就可以得到一致估计,这是面板数据的一大优势。

    然而,在作离差变换的过程中, \boldsymbol z_{i}^{\prime} \boldsymbol \delta 也被消掉了,于是无法估计 \boldsymbol \delta 。也就是说固定效应模型无法估计不随时间而变的变量的影响,这是 FE 的一大缺点。另外,为了保证 \left(\varepsilon_{u}-\bar{\varepsilon}_{i}\right)\left(\boldsymbol{x}_{i{1}}-\overline{\boldsymbol{x}}_{i}\right) 不相关,则要求第 i 个观测值满足严格外生性,即:
    这是因为 \bar{\boldsymbol x}_{i} 中包含了 (\boldsymbol{x}_{i_{1}},\dots,\boldsymbol{x}_{i_{T}}) 的所有信息。换言之,扰动项必须与各期的解释变量均不相关,这是一个比较强的假定。

    b. LSDV法 (虚拟变量法)

    思想:人工加入虚拟变量,把内生性手动 外生化

    优点:能够估计出个体固定效应,操作简便,可解释性强

    缺点:如果 n 很大,计量软件可能不支持

    如果在原方程中引入 (n-1) 个虚拟变量(如果没有截距,则引入 n 个虚拟变量)来代表不同的个体,则可以得到与上述离差模型同样的结果,即:
    其中,个体虚拟变量 D_j=1 如果 i=j ;否则 D_j=0 。可以用 OLS 估计此方程,而且我们可以证明, LSDV 法与组内估计量 FE 完全一样。因此,FE 也被称为 最小二乘虚拟变量模型 ( Least Square Dummy Variable Model, LSDV)

    不过,如果作完 LSDV 后发现某些个体的虚拟变量不显著将其删去,那么 LSDV 的结果就不会与 FE 相同。使用 LSDV 的好处是可以得到对个体异质性 u_i 的估计(模型中的 \gamma_i ),但如果 n 很大,则需要在回归方程中加入很多虚拟变量,可能超出一些计量软件的最大解释变量数量。

    LSDV 法深受不少研究者的喜爱,因为它操作简便,可解释性也强。

    c. 15.4.3 一阶差分法

    思想:消去 u_i 消除 内生性

    优点:只要扰动项的一阶差分与解释变量的一阶差分不相关,估计就是一致的

    缺点:估计效率低

    考虑固定效应模型,可以对个体效应模型 (15.1) 进行差分处理:

    于是,把两个方程相减,就可以得到一阶差分方程,从而消除个体效应:
    对此差分模型使用 OLS 估计即得到 一阶差分估计量 ( First Differencing Estimator ),记为 \hat{\boldsymbol\beta}_{\rm DF} 。由于 u_i 不再出现在差分方程中,只要扰动项的一阶差分 \left(\varepsilon_{i t}-\varepsilon_{i, t-1}\right) 与解释变量的一阶差分 \left(\boldsymbol{x}_{i t}-\boldsymbol{x}_{i, t-1}\right) 不相关,则 \hat{\boldsymbol\beta}_{\rm DF} 就是一致的,这比 \hat{\boldsymbol{\beta}}_{\rm FE} 的严格外生性要求更弱,是 \hat{\boldsymbol\beta}_{\rm DF} 的优点。

    不过,可以证明,在 T>2 下, \hat{\boldsymbol{\beta}}_{\rm FE}\hat{\boldsymbol\beta}_{\rm DF} 更有效率。因此,在实践上,主要使用 \hat{\boldsymbol{\beta}}_{\rm FE} 而不是 \hat{\boldsymbol\beta}_{\rm DF} 。但对于动态面板,严格外生性无法满足,则主要用 \hat{\boldsymbol\beta}_{\rm DF}

    15.4.2 时间固定效应

    上面的个体固定效应解决了不随时间而变但随个体而变(time invariant)的遗漏变量问题。

    类似地,引入时间固定效应,则可解决不随个体而变但随时间而变(individual invariant)的遗漏变量问题。

    a. LSDV (虚拟变量法)

    假设模型为:
    其中, S_t 不可观测,定义 \lambda_t=\gamma S_t ,则上式可以写成:
    在上式,可将 \lambda_t 视为第 t 期独有的截距项,并将其解释为 t 对被解释变量 y 的效应。于是,这些 \lambda_1,\cdots,\lambda_T 称为 时间固定效应 (time fixed effects)。

    显然,这个模型可以用 LSDV 法来估计,即对每时期定义一个虚拟变量,然后把 (T-1) 个时间虚拟变量包括在回归方程中,比如:
    其中,时间虚拟变量 D2_i=1 如果 t=2 否则 D2_i=0 。对于上面的式子,既考虑了个体固定效应( Dt_ii )、又考虑了时间固定效应( Dt_it ),所以称为 双向固定效应 (Two-way FE)。相应的,如果仅考虑个体固定效应(如15.4.1 的模型)则称为 单向固定效应 (One-way FE)。