工具变量和孟德尔随机化原理

工具变量(Instrumental-Variable)本身是一个计量经济学的概念,它的出现是为了克服普通最小二乘法中的内生性问题。

内生性问题

内生性问题的原因主要有以下三种

  • 遗漏变量
  • 变量有测量误差
  • 双向因果关系:比如受教育年限影响工资,工资反过来影响受教育年限

假设

孟德尔随机化需要三个核心工具变量假设,即:

  • 相关性假设:用作工具变量的遗传变异 (\(Z\) )与暴露 (\(X\)) 有关,即存在 \(Z \to X\)
  • 独立性/可交换性假设:遗传变异和目标结果没有共同的原因(即没有干扰因子),即虽然可能存在 \(U \to Y\),但是不存在 \(U \to Z\)
  • 排斥性/无水平多效性假设:除了通过暴露( \(X\) )外,遗传变异( \(Z\) )和结果( \(Y\) )之间没有独立的因果途径,不存在 \(Z \to Y\) 不经过 \(X\)

模型解释

  • 用作工具变量的遗传变异( \(Z\) )
  • 暴露( \(X\) )
  • 结果( \(Y\) )
  • 混杂因素( \(U\) )
孟德尔随机化模型

模型使用

使用两阶最小二乘(Two Stage Least Squares,TSLS)来替代原来的最小二乘法

\[Y = \sum \beta_i X_i + \delta\]

第一步:建立自变量\(X\)和工具变量的回归模型

\[X = \alpha Z + \epsilon\]

在这一步中,需要验证,\(Cov(Z, \epsilon)=0\),也即工具变量和混杂因素无关。 注:我感觉应该是残差吧!

另外还需要考虑上述方程的决定系数或者说是F统计量,来判断\(Z\)\(X\)的关联强度。通常情况下,决定系数或者F统计量越大,说明Z和X的关联程度越大。

第二步:将第一步中拟合的X的估计量带入如下方程:

\[Y = \beta \hat{X} + \delta\]

其中\(\beta\)便是\(X\)\(Y\)的纯净效应量。

参考资料