One-Sample-MR

基于单个个体的MR被称为One-Sample-MR。下面主要介绍以下内容

Ratio of coefficients method

系数比率法,即Wald-Ratio法,是估计暴露(X)对结果(Y)的因果效应的最简单方法。比值法使用单一的工具变量(IV)。

如果有一个以上的变异体是有效的IV,那么可以有以下三种处理方法:

  1. 每个变异体的比率法的因果估计值可以单独计算
  2. 在等位基因评分法中把变异合并为一个IV
  3. 也可以使用下一节所述的两阶段方法

连续的结果,二分的IV

我们最初假设我们有一个IV G,其取值为0或1,将人群分为两个遗传亚群。 IV可以被认为是一个单核苷酸多态性(SNP),其中三个亚群中的两个被合并在一起,例如,反映了显性或隐性遗传模型,或者因为在最不常见的遗传亚群(小同胞)中的个体非常少。 在隐性模式中,主要(野生型)等位基因A的一个拷贝足以掩盖一个次要(变异)等位基因;遗传亚群是AA/Aa(主要同型/杂合子)和aa(次要同型)。 显性模型与此类似,只是杂合子与次要同质子相结合;两个遗传亚群是AA和Aa/aa。 从IV的假设来看,暴露的分布在两个基因亚组中是不同的。如果结果的分布也不同,那么暴露对结果就存在着因果效应。

我们将\(j=0,1\)\(\bar{Y}_j\)定义为所有基因型\(G=j\)个体的结果平均值,并对暴露量定义\(\bar{X}_j\),与此类似。

\[Ratio method estimate (dichotomous IV) = \frac{\Delta Y}{\Delta X}=\frac{\bar{Y}_1 - \bar{Y}_0}{\bar{X}_1 - \bar{X}_0}\]

IV估计值通常表示为暴露量增加一个单位所导致的结果变化,尽管可以引用暴露量的不同变化幅度所对应的结果变化来代替。 例如,如果暴露是以mg/dL为单位测量的脂蛋白(a),那么因果估计代表脂蛋白(a)增加1mg/dL的影响。 设是线性的,脂蛋白(a)增加10mg/dL的影响可以通过将比率估计值乘以10来获得。 脂蛋白(a)减少15mg/dL的影响可以通过将比率估计值乘以-15来获得。

IV估计值也可以用暴露的每一标准差增加(或减少)来表示。 如果暴露已被标准化为正态分布(例如,使用基于等级的反正态转换),则有必要这样做。

如果对暴露的变化表达的IV估计值远远大于遗传变异体与暴露的关联,那么线性外推法可能就没有道理了。 然而,一些外推法可能是可取的,以便将因果估计扩大到与临床相关的暴露变化的程度。

连续的结果,多分类或者连续的IV

另外,IV可能不是二分的,而是多分的(需要两个以上的不同值)。 这就是二重性SNP的通常情况;AA(主要同源者)、Aa(异源者)和aa(次要同源者)三个层次将被称为0、1和2,对应于次要等位基因的数量(这里将次要等位基因作为效应等位基因)。 在加性或 "每等位基因 "模型中,我们假设遗传变异体与暴露的关联与变异体等位基因的数量成正比。 IV也可以是一个连续的等位基因分数,假设该分数与暴露的关联是线性的。

在这里,X对G的回归中G的系数被写成\(\beta_{X|G}\),表示G的单位变化对X的影响。同样,Y对G的回归中G的系数被写成\(\beta_{Y|G}\)

\[Ratio method estimate (polytomous/continuous IV) = \frac{\beta_{Y|G}}{\beta_{X|G}}\]

二分的结果

一般来说,在流行病学应用中,疾病是感兴趣的结果。 疾病的结果通常是二元的(也就是说,它们是二分的,取值为0或1)。 我们使用流行病学的术语,把有结果事件的个体称为病例(Y=1),把没有事件的个体称为对照(Y=0)。

对于二元结果和二分类IV,比率估计的定义与连续结果的定义相似。其中\(\bar{Y}_j\)\(Y_j\)的probability或者odds的对数

\[Ratio method log risk ratio estimate (dichotomous IV) = \frac{\Delta Y}{\Delta X} = \frac{\bar{Y}_1 - \bar{Y}_0}{\bar{X}_1 - \bar{X}_0}\]

对于二元结果和多分类/连续IV,比率估计的定义就不一样了。一般倾向于采用对数线性或逻辑回归模型。 在这种情况下,IV估计值分别代表暴露量的单位变化的对数因果相对风险或对数因果几率,即曝光量的变化。

比率的估计也可以直接用指数化的形式直接计算。

\[Ratio method risk ratio estimate (dichotomous IV) = R^{\frac{1}{\Delta X}}\]

比率估计的置信区间

比率估计的置信区间有几种计算方法

  • Normal approximation
  • 二阶标准误差估计/一阶标准误差估计
  • 斐勒定理。如果假设比率法中的回归系数为正态分布,那么比率估计器的临界值和置信区间可以用Fieller定理来计算

TSLS

TSLS,两阶段方法。包括两个回归阶段:第一阶段是暴露对遗传IV的回归,第二阶段是结果对第一阶段的暴露拟合值的回归。

连续结果

两阶段最小二乘即可。

二分结果

第二阶段使用对数线性或逻辑回归模型。