E-Mail:
Note: 助教招聘信息请进入「课程主页」查看。因果推断-内生性 专题 ⌚ 2020.11.12-15
主讲:王存同 (中央财经大学);司继春(上海对外经贸大学)
空间计量 专题 ⌚ 2020.12.10-13
主讲:杨海生 (中山大学);范巧 (兰州大学)
目录编者按: 在 Stata Journal (吵架」论文。其中,首篇为 David Hoaglin 撰写的长文 (p.5-22),题为「Regressions are Commonly Misinterpreted」。从标题上来看,这无异于「挑战」我们的常识。三位知名的计量经济学家 (James Hardin, Scott Long, David Drukker) 撰写了两篇短文对此进行评论/批评。而同期第四篇论文刊登的就是 David Hoaglin 的「反驳 (Rejoinder)」。显然,这四篇文章是 Stata Journal 的编辑们蓄意之作,同时,也凸显出此问题的重要性。本文对其中的一些核心观点进行梳理,感兴趣的读者可以阅读原文以便品尝原味红茶。Hoaglin David C., 2016, Regressions are Commonly Misinterpreted, Stata Journal, 16(1): 5–22.
Hardin James W. , 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 23–24.
Long J. Scott, David M. Drukker, 2016, Regressions are Commonly Misinterpreted: Comments on the Article, Stata Journal, 16(1): 25–29.
Hoaglin David C., 2016, Regressions are Commonly Misinterpreted: A Rejoinder, Stata Journal, 16(1): 30–36.同主题阅读:
1. 引言
多元回归模型一直被广泛运用,也是最常见和最基础的计量模型。多元回归模型中各个变量间关系相对复杂,其回归系数惯常解释为:当其他变量保持不变或控制其他变量不变时,
每改变一个单位时因变量
的平均变化量。
然而,Hoaglin (2016) 指出,这种常见的解读存在错误。这些问题常常出现在 OLS 回归、logistic 回归和其他广义线性模型以及生存分析、纵向分析和层次分析回归中。
Hoaglin (2016) 认为,这些解释既没有体现多元回归的基本原理,也不符合现实情况。他从图形、多元正态分布和最小二乘几何特征等角度解释「控制」和「保持不变」的不适性。为此,他们提出一直全新的解释「调整
和其他预测因子对
的共同线性影响后,
每改变一个单位时因变量
的平均变化量」。
2. 多元线性回归系数的常见误解
2.1 多元线性回归计量模型
我们常见的多元回归的总体 (population) 模型为:
为解释变量或预测因子;
为被解释变量或响应变量。我们通常令第一个解释变量为单位向量,即
为待估参数,称为「回归系数」(regression coefficients)。
在多元回归中,预测因子间不可能是完全独立的,每个回归系数的下标应该包含方程中的其他预测因子。为此,预测因子
的回归系数可以写为:
,第一个下标表示响应变量,第二个下标表示系数所附的预测因子,而在「·」之后的下标表示其他预测因子。则回归模型可以变为:
运用数据可以对回归系数
进行估计,可以得到估计值
。则 (2) 的拟合方程为:
的观测值。在多元回归中,每个预测因子的系数都说明了其他预测因子的贡献,也就是说,它反映了对这些预测因子的调整。
2.2 多元线性回归系数的图形解释
我们运用 Stata 自带的 1978 汽车数据集 auto.dta 中的进口汽车 (foreign) 数据来解释多元回归系数估计值的含义。
首先,我们把汽车的百英里油耗 (100/mpg) 当作被响应变量,汽车的重量 (weight) 和排量 (displacement) 为预测因子。通过散点图 (图 1),我们可以看到汽车油耗与重量和排量的相关性很高,汽车的重量和排量的相关性也很强。
. sysuse auto, clear
(1978 Automobile Data)
. generate gp100m = 100/mpg
. label var gp100m "Gallons per 100 miles"
*-相关系数
. pwcorr gp100m weight displacement if foreign==1
| gp100m weight displa~t
-------------+---------------------------
gp100m | 1.0000
weight | 0.8172 1.0000
displacement | 0.8444 0.9507 1.0000
*-散点图矩阵
. graph matrix gp100m weight displacement if foreign==1
图 1 汽车油耗、重量和排量的散点图矩阵
首先,我们看二元回归的估计结果如下,可以发现汽车重量回归系数的估计值为 0.396,而汽车排量回归系数的估计值为 0.032。
. regress gp100m weight displacement if foreign == 1
Source | SS df MS Number of obs = 22
----------+------------------------------ F(2, 19) = 23.86
Model | 19.6704568 2 9.83522842 Prob > F = 0.0000
Residual | 7.83165119 19 .412192168 R-squared = 0.7152
----------+------------------------------ Adj R-squared = 0.6853
Total | 27.502108 21 1.30962419 Root MSE = .64202
-----------------------------------------------------------------------
gp100m | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+---------
作者:金钊 (中山大学)E-Mail:Note: 助教招聘信息请进入「课程主页」查看。因果推断-内生性 专题 ⌚ 2020.11.12-15 主讲:王存同 (中央财经大学);司继春(上海对外经贸大学)空间计量 专题 ⌚ 2020.12.10-13 主讲:杨海生 (中山大学);范巧 (兰州大学)目录编者按: 在 Stata Journal (吵架」论文。其中,首篇为 David Ho...
Logistic回归
虽然名字叫”
回归
” ,但却是一种分类学习
方
法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。
一 从线性
回归
到
Logistic回归
线性
回归
和
Logistic回归
都是广义线性模型的特例。
假设有一个因变量y和一组自变量x1, x2,
x3, ... ,
xn,其中y为连续变量,我们可以拟合一个线性
方
程:
y =β0 +β1*x1 +β2*x2 +β3*x3 +...+βn*xn
并通过...
Logistic回归
虽然名字叫”
回归
” ,但却是一种分类学习
方
法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。
一、从线性
回归
到
Logistic回归
线性
回归
和
Logistic回归
都是广义线性模型的特例。
假设有一个因变量y和一组自变量x1, x2, x3, … , xn,其中y为连续变量,我们可以拟合一个线性
方
程:
y =β0 +β1x1 +β2x2 +β3x3 +…+βnxn
并通过最小二乘法估计各个β
系数
的值。
如果y为二分类变量,只能取值0或1,那么线性
回归
方
程就
会
遇到困难:
方
程右
1)什么是
多项
式
回归
法?
样本特征和值(y)呈非线性关系,这种关系的数学模型是一个
多项
式,如:y = ax2+ bx + c,其中 x2可以看做是认为添加的另一个特征。
2)
多项
式
回归
法能解决什么问题?以及怎么解决?
解决的问题:拟合不是直线关系而是其它曲线关系的数据;
解决
方
法:与线性
回归
类似,假设特征与值(y)呈一个多...
回归
系数
(3.45)显著不为0(p<0.001),表明身高每增高1英寸,体重将预期增加3.45英镑。
R平
方
项(0.991)表明模型可以
解释
体重99.1%的
方
差,它也是实际和预测值之间相关
系数
的平
方
。
残差标准误(1.525lbs)则可认为是模型用身高预测体重的平均误差。
之后进行输出了真实值、预测值和残差值。显然残差值最大的在身高最矮和最高的地
方
出现,表明可以用含一个弯
多项
式
回归
多项
式
回归
,
回归
函数是
回归
变量
多项
式的
回归
。
多项
式
回归
模型是线性
回归
模型的一种,此时
回归
函数关于
回归
系数
是线性的。由于任一函数都可以用
多项
式逼近,因此
多项
式
回归
有着广泛应用。
直线
回归
研究的是一个因变量与一个自变量之间的
回归
问题,但在实际情况中,影响因变量的自变量往往不止一个,例如:羊毛的产量受到绵羊体重、体长、胸围等影响,因此需要进行一个因变量与多个自变量间的
回归
分析,即
多元回归
...