MR-statistical issues

我们依次讨论了

  1. 弱工具偏倚
  2. 等位基因分数
  3. 样本重叠
  4. 赢家诅咒
  5. 选择和碰撞偏倚
  6. 协变量调整
  7. 非碰撞性
  8. 时间和时变效应
  9. Power to detect a causal effect
  10. 从单一基因区选择变体
  11. 二元暴露
  12. 替代估计方法

Weak instrument bias

弱工具是一个工具变量(IV),在统计学上与暴露的关联不强。 一个弱工具仍然是一个有效的IV,因为它满足IV的假设。基于弱工具的估计值是渐进无偏的(也就是说,随着样本量向无穷大的方向增加,偏差会减少到零)。 但是对于任何有限的样本量,估计都是有偏的。

由于2SLS IV估计的偏差取决于暴露量对IV的回归中的预期F统计量,所以可以通过增加预期F统计量来减少偏差。 同样,如果有一些工具不能解释暴露中的大部分变化,那么排除这些工具将增加F统计量。 一般来说,采用较少的参数来建立遗传关联模型会增加F统计量。 理想的情况是,在收集数据之前,应通过指定样本量、工具和遗传模型,利用现有的最佳先验证据来确保F统计量的预期值大,从而解决工具偏差小的问题。

Allele scores

等位基因得分(也称为遗传风险得分、基因得分或基因型得分)是一个单一变量,在单变量得分中总结了多个遗传变异,是孟德尔随机化中使用的一种流行方法。

未加权的等位基因得分被构建为个体基因型中存在的暴露增加的等位基因的总数。 也可以考虑加权的等位基因得分,其中每个等位基因贡献一个权重,反映相应的遗传变异对暴露的影响。 这些权重可以从分析中的数据内部得出,也可以从外部的独立数据源得出。

使用等位基因得分有两个主要原因。

首先是解析性。 人们可以通过测试每个变体与一组测量的协变量的关联来探索IV假设的有效性。 然而,当变异体和协变量性状的数量很大时,这可能是不切实际的。 因此,我们可以用这个方法测试等位基因分数与协变量的关联。 用单一的分数变量来评估违反IV的情况将更简单呈现,如果几个变体与同一协变量有多向关联,检测违反情况的力量将得到提高。

第二个原因是为了减少弱工具偏差。 如上所述,即使是相对较弱的IV,单一IV的中位数偏差也接近于零。 因此,将多个遗传变体合并为一个等位基因得分是减少弱工具偏差的潜在策略。 果等位基因分数使用与所分析的数据集中的暴露的遗传关联进行加权,那么加权的等位基因分数在数学上等同于2SLS方法中使用的暴露的拟合值(最多为一个加法常数)。 在这种情况下,使用等位基因分数的比率IV估计值与2SLS估计值相同,弱工具偏差也就无法避免了。 如果权重来自于被分析的数据集,那么将等位基因得分的F统计量作为一个单一的变量来呈现就会引起误解。 然而,如果等位基因得分是利用与第二个数据集的暴露的遗传关联来加权的,那么这就相当于是一个双样本分析。 在这种情况下,弱工具偏差是朝向空的,不会导致夸大的1型错误率。

Sample Overlap

样本重叠可能会引起bias。

一个值得注意的情况是二元结果。只 要在估计变量-暴露关联时只使用对照组参与者(第4.1.4节),即使在一个样本的情况下,样本重叠也不会导致观察性关联方向的偏差,因为变量-暴露和变量-结果关联估计值是不相关的。

Winner's curse

如果孟德尔随机化分析中使用的遗传变体最初是在被分析的数据中发现的,则会出现另一种偏差。 这是由于一种被称为赢家的诅咒的现象造成的。

如果真相中的几个遗传变异体与暴露的关联程度相似,那么在分析的数据中最强的那个变异体的关联可能会被高估。 由于高估通常发生在与混杂因素的关联偶然强于预期的情况下,如果发现数据集被用于估计变体-暴露或变体-结果的关联,就会产生偏差。 发现数据集和变量-结果关联的数据集之间的重叠是一个特别值得关注的问题,因为这将导致变量-结果关联的高估,并可能导致假阳性结果。

Selection and collider bias

选择偏倚和碰撞偏倚会影响任何观察性数据分析的结果。碰撞器是两个变量的共同效应。

在孟德尔随机化中,暴露受到遗传变异和任何暴露-结果混杂因素的影响,因此在从遗传变异到结果的因果途径上是一个碰撞者。碰 撞器的任何下游后果本身也是一个碰撞器。如果两个变量是不相关的(它们是勉强独立的),那么在对碰撞物进行调节时,它们通常是相关的(它们成为条件依赖)。

我认为,这边本质来说是样本的问题导致遗传变量和混杂因素不再真正无关。

Covariate adjustment

在随机试验中对协变量进行调整有两个动机:一是提高效率,二是减少随机分组之间偶然的协变量不平衡引起的偏差

在IV分析中,对协变量的调整同样不是必须的,但可以提高效率和减少偶然的协变量不平衡

然而,在孟德尔随机化分析中纳入协变量也有潜在的隐患。如果协变量位于从遗传变异到结果的因果途径上(中介),或者如果调整诱发了碰撞偏倚,那么调整就会使估计结果出现偏差。

Non-collapsibility

协变量上存在不可折叠性问题。

Time and time-varying effects

从确定个体的基因型(受孕时)到测量暴露和结果,通常有很大的差距。因此,孟德尔随机化调查通常不能很好地解决有关因果效应时间的详细问题。

Time-to-event data

虽然我们已经讨论了连续结果和二元结果,但到目前为止,我们还没有讨论通常在纵向研究中测量的生存结果。 对生存结果的经典观察性分析通常使用Cox比例危害回归在乘法危害模型中估计危害比。然而,危险比的因果解释并不明确。

Power to detect a causal effect

IV分析证明给定的因果效应幅度所需的样本量大约等于传统流行病学分析证明相同的关联幅度除以IV的参数

举例来说,如果一个遗传变异体能解释2%的暴露方差,那么孟德尔随机化调查的样本量是传统流行病学分析的1/0.02=50倍。

Choosing variants from a single gene region

一般来说,在孟德尔随机化分析中使用的遗传变体的选择是一个实际问题,而不是一个统计问题。 在这里,我们假设有一个感兴趣的单一基因区,并从纯统计学的角度考虑选择该基因区的哪些变体的问题。

这种情况对于作为分子测量的暴露,如蛋白质生物标志物或某一特定基因的基因表达水平,特别相关

Binary exposure

使用二元暴露使IV估计的解释变得复杂

Alternative estimation methods

虽然我们集中讨论了比率法、2SLS和反方差加权法,但还有其他方法可以进行IV分析。 我们简要地提到了计算因果效应的界限的方法,并介绍了有限信息最大似然法(LIML),以及广义矩量法(GMM)和结构平均模型(SMM)方法。 其他没有讨论的方法包括连续更新估计方法,以及贝叶斯和其他全似然方法。