简单来说内生性就是自变量x1与扰动项 \varepsilon 存在相关性,即 cov(x_{1},\varepsilon ) \neq 0 ,存在内生性那么用OLS就无法得到无偏估计,结论就不可靠。

是指用样本统计量来估计总体的参数时,估计量的数学期望等于被估计参数的真实值。

二、产生内生性原因

1)测量误差

这个很好理解,由于测量误差导致某变量与真实值偏离,那么这个变量的偏离就会影响到扰动项的大小,从而产生相关性。

2)样本选择

举个栗子,评估某个特效药品的治疗效果,选择了服用药物的作为实验组(处理组),未服用药物的作为对照组(控制组),最后对比两组的效应,E(处理组)- E(控制组),但是如果处理组中大多是青壮年,也可能青壮年更偏向参与这种测试,那么就很难说清药物治疗效果,还是青壮年体质好自愈性强。

3)遗漏变量

比如要评价一个人的健康状况,已知变量身高,体重,血压,血糖,饮食习惯,若遗漏了体重,那么体重会体现在扰动项 \varepsilon 上,我们知道血压和血糖跟体重是相关的,也就产生了内生性。

4)互为因果

比如老旧改造安装电梯,需要2/3居民同意,没有反对意见,所以居民意见影响了电梯的安装,但是安装电梯这事会导致1层的房价失去竞争力,从而反对安装,所以就很难达成共识。

公式说明一下:

y:表示是否安装电梯,x:居民意见

则第一个回归方程的假设是: cov(x,\varepsilon_1 )= 0

第二个回归方程: cov(y,\varepsilon_2 )= 0

两个方程合并:

由于 cov(y,\varepsilon_2 )= 0 ,但是由于1)方程可知y和 \varepsilon _1 是相关的,所以存在内生性。

三、解决内生性办法

1) 测量误差

  • 工具变量法

一般提到工具变量法会想到两个:2SLS(两阶段最小二乘)和GMM(广义矩估计)

2SLS适用于球型扰动项的假设条件下,即同方差,不自相关。

其中 D_1i 是内生性变量, X_2i...X_ki 是其他外生变量,这个时候需要找到工具变量Z,需要满足两个条件:

1、工具变量Z和扰动项不相关,即 Cov(Z,\varepsilon _i)= 0

2、工具变量Z和内生变量 D_1i 相关

模型估计的两个阶段核心思想:

第一阶段,内生变量对工具变量和所有外生变量回归,得到估计系数,从而得到内生变量预测值。

第二阶段,用预测值代替内生变量进行回归。

stata命令:ivregress 2sls

GMM适用于扰动项存在异方差或自相关。

什么是异方差:

是指回归方程的扰动项的方差不完全相等。

举个栗子:学历对收入的影响,一般情况下学历越高收入越高,但是也存在小学学历的是个大老板,但是大多数情况下小学学历收入普遍不高,所以在小学的样本集中方差是相同的,而本科学历普遍要高于小学学历的收入,也存在收入居高和极低的特例,同样在本科情况下方差也是相同的。但是综合一起看两者(小学学历,本科学历)的方差是不同的,就存在了异方差。

什么是自相关:

一般指动态面板数据,例如一个上市公司,他的去年业绩也会影响今年的业绩。

矩估计思想同OLS(最小二乘法)和LIML(最大似然法)不同,

OLS目标函数是求真实数据和预测数据平方和最小

LIML目标函数是假设样本概率分布和真实相同,利用样本的联合概率密度最大值估计参数的过程。

矩估计是假设样本和总体拥有相同的矩,一阶原点矩和二阶原点矩,然后推到参数的过程。

stata命令:ivregress gmm 或 xtabond2

固定效应适用于面板数据,能够解决部分变量问题,因为它消除的是不随时间变化的不可观察变量。

固定效应模型:

Y_it 是被解释变量, X_it\beta 可观察随时间变化的变量, Z_it\gamma 可观测不随时间变化的变量, \alpha _i 不可观测不随时间变化的变量, u_i 不可观测随时间变化的变量

例如使用个体内差分估计法,使用的是每个样本和样本的均值做差,然后再做回归,这样消除了可观测不随时间变化的变量和不可观测不随时间变化的变量。这个方法也是stata xtreg的默认方法。当然还有其他的方法例如LSDV。

stata命令:xtreg

2)样本选择

目标是计算倾向得分,根据得分使用不同的方法获得匹配的样本,然后再做其他操作的过程。

举个栗子:研究某个政策的实施是否对当地有促进作用,那么实施的地区是实验组,没有实施的是控制组,显然当地由于地方特色和历史条件也会有促进作用,并不能说明是政策影响,所以需要找个跟实验组差不多的地区做对照组。

这个时候处理变量可以是政策实施,控制变量可以是地方的一系列特征变量,做回归得到政策实施的倾向得分。

然后利用k近邻匹配、几率比例匹配、半径匹配(卡尺匹配)、核匹配等匹配方法获得共同支撑域下的样本。匹配后检验过了,可以继续做DID等其他分析。

stata命令:psmatch2或diff(只支持核匹配)

  • Heckman

也是分两个阶段:第一阶段probit估计选择的概率获得IMR,第二阶段利用IMR带入回归的目标方程进行估计。

stata命令:heckman,或是probit 与reg两部走

3)遗漏变量

  • 工具变量
  • 固定效应

4)双向因果

1. 内生性 来源 内生性 问题 (endogeneity issue) 是指模型中的一个或多个解释变量与误差项存在相关关系。换言之,如果 OLS 回归模型中出现,则模型存在 内生性 问题 ,以致于 OLS 估计量不再是一致估计。进一步, 内生性 问题 主要由以下四种原因导致。 1.1 遗漏变量 在实证研究中,研究者通常无法控制所有能影响被解释变量的变量,因此遗漏解释变量 (omitted variables) 是很常见的事情。假设 OLS 模型中解释变量为和,研究者遗漏的解释变量为 如果遗漏的变量...
This chapter discusses how applied researchers in corporate finance can address endogeneity concerns. We begin by reviewing the sources of endogeneity— omitted variables, simultaneity, and measurement error— and their implications for inference. We then discuss in detail a number of econometric techniques aimed at addressing endogeneity problems including: instrumental variables, difference-in-differences estimators, regression discontinuity design, matching methods, panel data methods, and higher order moments estimators. The unifying themes of our discussion are the emphasis on intuition and the applications to corporate finance.
遗漏变量是指可能与解释变量相关的变量,本来应该加以控制,但却没有控制的变量。这些变量最后进入了误差项,从而导致误差项与解释变量相关,进而导致了 内生性 问题 。 联立性是指一个计量方程中的核心解释变量A对被解释变量B 产生 影响,反过来,被解释变量B又对A 产生 影响。 如果B对A有正向的影响,正向冲击就会导致A增加,从而导致核心解释变量A与误差项正相关。 如果B对A有负向的影响,正向
文章目录1 GMM引入2 GMM假定2.1 线性假设2.2 渐进独立平稳2.3 工具变量正交性2.4 满秩条件2.5 鞅差分序列2.6 四阶矩条件3 GMM推导4 大样本性质4.1 一致性4.2 渐进正态性5 最优权重矩阵与估计6 同方差情形7 过度识别检验8 非正交性识别9 自相关情形 1 GMM引入 线性回归模型满足如下线性形式 yi=xi′β+εi y_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i yi​=xi′​β+εi
对于在作用域中的变量,作用域决定了它的可见性和“存在时间”。 作用域是由花括号的位置决定的。Java用一对大括号作为语句块的范围,称为作用域,在作用域定义的变量,只能在该作用域结束前使用。 在JAVA中,变量作用域分为四个等级:类级,对象实例级,方法级,块级。 类级变量称为全局变量或者静态变量,需要用static关键字修饰。类级变量在类定义后就已经存在,占用内存空间,可以通过类名访问,不需要实例化。 对象实例级变量,是成员变量,实例化后才分配内存空间,才能访问。成员变量定义在方法之外,类之内的。成员变量随
数字内容平台越来越多地使用付费墙来 产生 订阅收入,但是将内容放在付费墙后面会减少消费和广告收入。 这项研究分析了当消费者内生决定其消费时的最优付费专柜设计。 我们发现,在适度的广告费率下,当消费者在消费内容的成本方面显示出足够的异质性时,免费提供有限数量的内容的计量收费墙是最佳的。 当广告费率提高时,人们通常会期望平台提供更多的免费内容,从而 产生 更高的广告收入。 相反,我们发现有时提供较少的免费内容并降低价格可以吸引新订户,从而 产生 更高的收入。 此外,取决于广告费率,最佳免费内容量可以减少或增加消费者对内容的评估。 随着消费者估价的提高,他们的付费订阅意愿和对内容消费的渴望也随之增加。 在低广告率下,前一种效果占主导地位,并激励该平台提供较少的免费内容,但在高广告率下,情况则相反。 与直觉相反,我们还发现,总内容消耗会随着光用户的比例而增加,因为该平台可能会战略性地提高其计费限制,以增加非订户的广告收入。
本专栏旨在分享日常学习计量时整理的笔记。所记之物来自网络、书籍,自己仅有整理汇集之功,涉及资料在文末标注,版权归原作者所有。一、什么是 内生性 内生性 问题 是解释变量与扰动项相关导致的,具体的表现形式有遗漏变量、双向因果和测量误差。遗漏变量 遗漏变量是指可能与解释变量相关的变量,本来应该加以控制,但是没有控制。此时该变量会跑到扰动项中,造成扰动项与解释变量相关。双向因果 双向因果是指核心解释...
《连玉君 - 内生性 问题 :处理方法与进展.pdf》是一篇关于 内生性 问题 处理方法与进展的研究论文。根据题目可以得知,文章主要涉及到 内生性 问题 的处理方法以及在这方面的进展。 内生性 问题 是指因果关系的反向性,即两个或多个变量之间相互影响,无法明确界定哪个是原因,哪个是结果。这种 问题 常见于社会科学研究,特别是经济学和社会学领域。 该论文首先介绍了 内生性 问题 的概念和背景,明确了 内生性 问题 对研究结果的影响。随后,作者提出了一些处理 内生性 问题 的方法,如仪器变量、固定效应模型、随机化实验等。这些方法在实际研究中应用广泛,并能够一定程度上帮助研究者解决 内生性 问题 。 然后,论文对 内生性 问题 处理方法的进展进行了详细讨论。作者列举了一些先前的研究成果,并分析了其优缺点。此外,论文还探讨了最新的研究进展,如控制函数法、断点回归设计等。这些方法在解决 内生性 问题 上有着一定的创新和突破。 最后,该论文总结了 内生性 问题 处理方法的应用现状和未来的研究方向。作者认为, 内生性 问题 仍然是社会科学研究中一个重要且复杂的挑战,需要不断探索更有效的处理方法。未来的研究可以从理论和实证两个角度进行,以提升 内生性 问题 的处理效果和研究结果的可信度。 综上所述,《连玉君 - 内生性 问题 :处理方法与进展.pdf》是一篇系统性的研究论文,通过介绍 内生性 问题 的处理方法和探讨最新研究进展,为解决 内生性 问题 提供了一定的理论和实践指导。