F统计量

在孟德尔随机化研究中,有一个很重要的问题就是弱工具变量偏倚(weak instrument bias)。弱工具变量是指解释暴露的效力较低的遗传变异,它和暴露有关联,但是这种关联强度不是很高,因此它与无效工具变量有本质区别。一般情况下,产生弱工具变量偏倚的主要原因是样本量不足。

在此基础上,有学者提出使用F统计量来评估弱工具变量效应,它的具体计算公式如下:

图片

这里N代表暴露GWAS研究的样本数,k代表IV的个数,R2是IV解释暴露的程度(回归方程的决定系数)。在两样本孟德尔随机化研究中,我们很容易得到N和k的具体数值,但是R2却并不容易获取,我们常常需要查阅原始文献或者看完整的GWAS summary文件才能获取。当然,有时候我们通过上述方式也是无法获取R2的,这时候我们便无法获取F统计量了,唯一的方法便是联系GWAS文章的通讯作者。对于单样本的孟德尔随机化,我们可以自己进行两阶段最小二乘法,并且在第一阶段的回归中直接得到R2的。详细内容参见孟德尔随机化之两阶段估计法(一)与孟德尔随机化之两阶段估计法(二)。

从传统经验角度来看,当F统计量小于10时,我们通常会认为使用的遗传变异是弱工具变量,这可能会对结果产生一定的偏倚,此时我们对结果的解释需要十分谨慎。虽然现在也有学者认为F统计量可能并不是一个非常好的评估弱工具变量偏倚的工具,但我们现阶段还是先使用F统计量,毕竟它是被广泛应用且证实效果良好的方法,而其他的新方法还需要经过更多的实践检验。

小结:我们可以使用F统计量来评估弱工具变量偏倚,一般F统计量大于10是比较好的,当然能大于100是更好的。