1. 引言

标准误在统计推断中发挥着至关重要的作用,直接影响着系数的显著性和置信区间,并最终影响到假设检验的结论。因此,正确地估计标准误在实证分析的过程中显得尤为重要。当干扰项满足「 独立同分布 (iid) 」 条件时, OLS 所估计的标准误是无偏的。但是当误差项之间存在相关性时,OLS 所估计的标准误是有偏的,不能很好地反映估计系数的真实变异性 (Petersen, 2009),故需要对标准误进行调整。在多种调整标准误的方式中,「 聚类调整标准误 (cluster) 」是一种有效的方法 (Petersen, 2009)。

本文主要对聚类调整标准误的原理及其在 Stata 中的具体应用进行简要介绍,包括不同类型的模型中进行「 一维聚类调整标准误 」和「 二维聚类调整标准误 」的操作方法。对于该方法更深入的了解,可参考 Petersen (2009)、Thompson (2011)、 Cameron and Miller (2015)、 Abadie et al. (2017) 、Gu and Yoo (2019)等文献。在文章末尾,还对常见的与标准误相关的问题进行了探讨,以便加深对相关内容的理解。

2. 认识标准误

2.1 什么是标准误

为了简便,以仅含有一个非随机解释变量,且不含有截距项回归模型为例予以说明,具体如下:

y i = β x i + u i ( 1 ) y_{i}=\beta x_{i}+u_{i} \quad (1) y i = β x i + u i ( 1 )

其中, i = 1 , … , N i=1, \ldots, N i = 1 , , N E [ u i ] = 0 \mathrm{E}\left[u_{i}\right]=0 E [ u i ] = 0

采用 OLS 方法进行估计,系数的估计量可表示为:

β ^ = ∑ i x i y i / ∑ i x i 2 ( 2 ) \hat{\beta}=\sum_{i} x_{i} y_{i} / \sum_{i} x_{i}^{2} \quad (2) β ^ = i x i y i / i x i 2 ( 2 )

将式 (2) 中的 y i y_i y i 用式 (1) 替换,整理得:

β ^ − β = ∑ i x i u i / ∑ i x i 2 ( 3 ) \hat{\beta}-\beta=\sum_{i} x_{i} u_{i} / \sum_{i} x_{i}^{2} \quad (3) β ^ β = i x i u i / i x i 2 ( 3 )

系数方差的一般形式可以表示为:

V [ β ^ ] = E [ ( β ^ − β ) 2 ] = V [ ∑ i x i u i ] / ( ∑ i x i 2 ) 2 ( 4 ) \mathrm{V}[\hat{\beta}]=\mathrm{E}\left[(\hat{\beta}-\beta)^{2}\right]=\mathrm{V}\left[\sum_{i} x_{i} u_{i}\right] /\left(\sum_{i} x_{i}^{2}\right)^{2} \quad (4) V [ β ^ ] = E [ ( β ^ β ) 2 ] = V [ i x i u i ] / ( i x i 2 ) 2 ( 4 )

若误差项间不相关,则 V [ Σ i x i u i ] \mathrm{V}\left[\Sigma_{i} x_{i} u_{i}\right] V [ Σ i x i u i ] 可以表示为:

V [ ∑ i x i u i ] = ∑ i V [ x i u i ] = ∑ i x i 2 V [ u i ] ( 5 ) \mathrm{V}\left[\sum_{i} x_{i} u_{i}\right]=\sum_{i} \mathrm{V}\left[x_{i} u_{i}\right]=\sum_{i} x_{i}^{2} \mathrm{V}\left[u_{i}\right] \quad (5) V [ i x i u i ] = i V [ x i u i ] = i x i 2 V [ u i ] ( 5 )

  • 进一步,若「 同方差 」,则 V [ u i ] = σ 2 \mathrm{V}\left[u_{i}\right]=\sigma^{2} V [ u i ] = σ 2 ,式 (4) 可以表示为:
  • V [ β ^ ] = σ 2 / ∑ i x i 2 ( 6 ) \mathrm{V}[\hat{\beta}]=\sigma^{2} / \sum_{i} x_{i}^{2} \quad (6) V [ β ^ ] = σ 2 / i x i 2 ( 6 )

  • 若「 异方差 」,由于 E [ u i ] = 0 \mathrm{E}\left[u_{i}\right]=0 E [ u i ] = 0 ,则 V [ u i ] = E [ u i 2 ] \mathrm{V}\left[u_{i}\right]=\mathrm{E}\left[u_{i}^{2}\right] V [ u i ] = E [ u i 2 ] ,式 (4) 可以表示为:
  • 杨 鑫 (南京大学),njuyangxin@smail.nju.edu.cn秦利宾 (厦门大学),qlb150@163.com连玉君 (中山大学),arlionn@163.com Stata连享会   主页 || 视频 || 推文扫码查看连享会最新专题、公开课视频和 100 多个码云计量仓库链接。 连享会 - Stata 暑期班线上直播 9 天:2020.7.28-8.7主讲嘉宾:连玉君 (中山大学) | 江艇 (中国人民大学)课程主页:https://gite xt se t id year xtreg y x i.year, fe robust xtreg y x i.year, fe vce( cluster id) //与上一条 命令 等价 二维 聚类 SE help vc
    一、为什么? 对样本做回归分析的核心是使用最小二乘法去估计模型里的参数,比如核心解释变量前面的系数。我们通过最小二乘法使得残差平方和最小,求得样本估计系数。如果进行一次估计,由于干扰项e的存在,估计值与真实值之间一定存在差异。样本估计值与真实值之间的差别中,误差项起了关键作用。 误差项是一个随机变量,每次估计都会得到不同的差异值。关于样本估计系数性质的讨论,都以误差项为核心。我们希望样本估计系数特别好,接近真实值,所以必须有良好的性质,而良好的性质需要有前提条件,也就是一些假设。 比如,我们希望反复抽
    代码段、自动完成反引号等。 在 Windows 上使用ctrl+b (或ctrl+shift+b )构建(选择或整个文件) 使用ctrl+r浏览 do 文件(支持程序和部分;以// XYZ开头) 在 Python 和 Stata 之上,它需要两个额外的组件: pywin32(一个python包) 来源: : Stata 自动化 来源: : 免责声明: 该软件包本质上是供我自己使用的。 我很可能会接受任何拉取请求,但不会实现对我没有直接用处的新功能(即我可以接受实现 OSX 支持的代码,但我不会编写它)。 进阶:积木: 该程序是模块化的,因此您可以独立使用不同的部分。 要在 Sublime Text 之外使用 对比普通 稳健 标准误 聚类 稳健 标准误 (std.err),普通 稳健 标准误 小于 聚类 稳健 标准误 。 但是,由于同一州不同时期之间的扰动项存在自相关,并且在使用普通 稳健 标准误 时,默认扰动项微独立同分布,故普通 稳健 标准误 的估计不准确。 这一步我不知道在干啥???
    Stata 是一款流行的统计软件,能够通过多种方式进行 聚类 分析。其中划分 聚类 和层次 聚类 是两种常见的方法。 划分 聚类 方法是将数据分成互不相交的几个群组,每个群组的成员具有相似的特征。划分 聚类 常用的算法有k-means和PAM(Partitioning Around Medoids)。 层次 聚类 方法是将数据逐步合并成越来越大的群组,直到最后剩下一个大的群组为止。层次 聚类 通常分为两种类型:凝聚层次 聚类 和分裂层次 聚类 。凝聚层次 聚类 从下到上逐步合并越来越相似的群组,而分裂层次 聚类 则相反,从一个大的群组开始逐步划分成更小的互不相交的群组。 在 Stata 中可以使用 命令 cluster ”进行划分 聚类 和层次 聚类 分析。对于划分 聚类 ,可以用 命令 cluster kmeans”和“ cluster pam”进行分析;对于层次 聚类 ,可以用 命令 cluster hierarchical”进行分析。需要注意的是,这些 命令 需要输入相应的参数,如群组数、距离度量和链接方式等,才能得到正确的结果。