相关文章推荐
想发财的炒粉  ·  MySQL ...·  10 月前    · 
帅呆的四季豆  ·  解决json.dumps ...·  1 年前    · 

E-Mail:

Note: 助教招聘信息请进入「课程主页」查看。因果推断-内生性 专题 ⌚ 2020.11.12-15

主讲:王存同 (中央财经大学);司继春(上海对外经贸大学) 空间计量 专题 ⌚ 2020.12.10-13

主讲:杨海生 (中山大学);范巧 (兰州大学)

目录编者按: 在 Stata Journal (吵架」论文。其中,首篇为 David Hoaglin 撰写的长文 (p.5-22),题为「Regressions are Commonly Misinterpreted」。从标题上来看,这无异于「挑战」我们的常识。三位知名的计量经济学家 (James Hardin, Scott Long, David Drukker) 撰写了两篇短文对此进行评论/批评。而同期第四篇论文刊登的就是 David Hoaglin 的「反驳 (Rejoinder)」。显然,这四篇文章是 Stata Journal 的编辑们蓄意之作,同时,也凸显出此问题的重要性。本文对其中的一些核心观点进行梳理,感兴趣的读者可以阅读原文以便品尝原味红茶。Hoaglin David C., 2016, Regressions are Commonly Misinterpreted, Stata Journal, 16(1): 5–22.

Hardin James W. , 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 23–24.

Long J. Scott, David M. Drukker, 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 25–29.

Hoaglin David C., 2016, Regressions are Commonly Misinterpreted: A Rejoinder, Stata Journal, 16(1): 30–36.同主题阅读:

1. 引言

多元回归模型一直被广泛运用,也是最常见和最基础的计量模型。多元回归模型中各个变量间关系相对复杂,其回归系数惯常解释为:当其他变量保持不变或控制其他变量不变时,

每改变一个单位时因变量

的平均变化量。

然而,Hoaglin (2016) 指出,这种常见的解读存在错误。这些问题常常出现在 OLS 回归、logistic 回归和其他广义线性模型以及生存分析、纵向分析和层次分析回归中。

Hoaglin (2016) 认为,这些解释既没有体现多元回归的基本原理,也不符合现实情况。他从图形、多元正态分布和最小二乘几何特征等角度解释「控制」和「保持不变」的不适性。为此,他们提出一直全新的解释「调整

和其他预测因子对

的共同线性影响后,

每改变一个单位时因变量

的平均变化量」。

2. 多元线性回归系数的常见误解

2.1 多元线性回归计量模型

我们常见的多元回归的总体 (population) 模型为:

为解释变量或预测因子;

为被解释变量或响应变量。我们通常令第一个解释变量为单位向量,即

为待估参数,称为「回归系数」(regression coefficients)。

在多元回归中,预测因子间不可能是完全独立的,每个回归系数的下标应该包含方程中的其他预测因子。为此,预测因子

的回归系数可以写为:

,第一个下标表示响应变量,第二个下标表示系数所附的预测因子,而在「·」之后的下标表示其他预测因子。则回归模型可以变为:

运用数据可以对回归系数

进行估计,可以得到估计值

。则 (2) 的拟合方程为:

的观测值。在多元回归中,每个预测因子的系数都说明了其他预测因子的贡献,也就是说,它反映了对这些预测因子的调整。

2.2 多元线性回归系数的图形解释

我们运用 Stata 自带的 1978 汽车数据集 auto.dta 中的进口汽车 (foreign) 数据来解释多元回归系数估计值的含义。

首先,我们把汽车的百英里油耗 (100/mpg) 当作被响应变量,汽车的重量 (weight) 和排量 (displacement) 为预测因子。通过散点图 (图 1),我们可以看到汽车油耗与重量和排量的相关性很高,汽车的重量和排量的相关性也很强。

. sysuse auto, clear

(1978 Automobile Data)

. generate gp100m = 100/mpg

. label var gp100m "Gallons per 100 miles"

*-相关系数

. pwcorr gp100m weight displacement if foreign==1

| gp100m weight displa~t

-------------+---------------------------

gp100m | 1.0000

weight | 0.8172 1.0000

displacement | 0.8444 0.9507 1.0000

*-散点图矩阵

. graph matrix gp100m weight displacement if foreign==1

图 1 汽车油耗、重量和排量的散点图矩阵

首先,我们看二元回归的估计结果如下,可以发现汽车重量回归系数的估计值为 0.396,而汽车排量回归系数的估计值为 0.032。

. regress gp100m weight displacement if foreign == 1

Source | SS df MS Number of obs = 22

----------+------------------------------ F(2, 19) = 23.86

Model | 19.6704568 2 9.83522842 Prob > F = 0.0000

Residual | 7.83165119 19 .412192168 R-squared = 0.7152

----------+------------------------------ Adj R-squared = 0.6853

Total | 27.502108 21 1.30962419 Root MSE = .64202

-----------------------------------------------------------------------

gp100m | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+---------

作者:金钊 (中山大学)E-Mail:Note: 助教招聘信息请进入「课程主页」查看。因果推断-内生性 专题 ⌚ 2020.11.12-15 主讲:王存同 (中央财经大学);司继春(上海对外经贸大学)空间计量 专题 ⌚ 2020.12.10-13 主讲:杨海生 (中山大学);范巧 (兰州大学)目录编者按: 在 Stata Journal (吵架」论文。其中,首篇为 David Ho...
Logistic回归 虽然名字叫” 回归 ” ,但却是一种分类学习 法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。  一 从线性 回归 Logistic回归 线性 回归 Logistic回归 都是广义线性模型的特例。 假设有一个因变量y和一组自变量x1, x2, x3, ... , xn,其中y为连续变量,我们可以拟合一个线性 程: y =β0 +β1*x1 +β2*x2 +β3*x3 +...+βn*xn 并通过...
Logistic回归 虽然名字叫” 回归 ” ,但却是一种分类学习 法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。 一、从线性 回归 Logistic回归 线性 回归 Logistic回归 都是广义线性模型的特例。 假设有一个因变量y和一组自变量x1, x2, x3, … , xn,其中y为连续变量,我们可以拟合一个线性 程: y =β0 +β1x1 +β2x2 +β3x3 +…+βnxn 并通过最小二乘法估计各个β 系数 的值。 如果y为二分类变量,只能取值0或1,那么线性 回归 程就 遇到困难: 程右
1)什么是 多项 回归 法? 样本特征和值(y)呈非线性关系,这种关系的数学模型是一个 多项 式,如:y = ax2+ bx + c,其中 x2可以看做是认为添加的另一个特征。  2) 多项 回归 法能解决什么问题?以及怎么解决? 解决的问题:拟合不是直线关系而是其它曲线关系的数据; 解决 法:与线性 回归 类似,假设特征与值(y)呈一个多... 回归 系数 (3.45)显著不为0(p<0.001),表明身高每增高1英寸,体重将预期增加3.45英镑。 R平 项(0.991)表明模型可以 解释 体重99.1%的 差,它也是实际和预测值之间相关 系数 的平 。 残差标准误(1.525lbs)则可认为是模型用身高预测体重的平均误差。 之后进行输出了真实值、预测值和残差值。显然残差值最大的在身高最矮和最高的地 出现,表明可以用含一个弯
多项 回归 多项 回归 回归 函数是 回归 变量 多项 式的 回归 多项 回归 模型是线性 回归 模型的一种,此时 回归 函数关于 回归 系数 是线性的。由于任一函数都可以用 多项 式逼近,因此 多项 回归 有着广泛应用。 直线 回归 研究的是一个因变量与一个自变量之间的 回归 问题,但在实际情况中,影响因变量的自变量往往不止一个,例如:羊毛的产量受到绵羊体重、体长、胸围等影响,因此需要进行一个因变量与多个自变量间的 回归 分析,即 多元回归 ...