孟德尔随机化之研究背景
在这里,我们试图评估风险因素是否是结果的原因,并估计因果效应的大小。
为什么要使用孟德尔随机化
原则上,尽管随机试验是确定特定风险因素的因果状况的最佳方法,但它们有一些局限性。
- 避免残留混杂问题
- 反向因果关系:当暴露与结果之间的关联不是由于暴露导致结果变化,而是由于结果导致暴露变化时,则发生反向因果关系。
- 昂贵或难以衡量的暴露:随机试验既昂贵又费时,特别是在结局很少或需要长期随访的情况下。 此外,在某些情况下,可能无法获得仅对目标危险因素有影响的靶向治疗。
- 由于实际或道德原因,许多风险因素不能随机分配:例如,在评估喝红酒对冠心病风险的影响时,招募参与者(例如20年)随机分配喝红酒或戒酒是不可行的。
一个例子
- 炎症假说指出,炎症反应机制的某些方面会导致心血管疾病事件,干预该途径将降低心血管疾病的风险。
- CRP与冠心病(CHD)风险相关,但在孟德尔随机化研究之前,尚不清楚这种关联是否为因果关系
- 长期升高的CRP水平是否会导致更大的CHD风险?
关联的替代解释
在疾病过程中,有许多因素会增加CRP水平和CHD风险,这些因素均被称为混杂因素,它们可以通过统计分析(例如多变量回归)手段进行衡量和解释。
混杂因素的一个例子是纤维蛋白原。 评估CRP的升高是否与纤维蛋白原的变化有因果关系非常重要。 因为如果两者之间存在因果关系,CRP对CHD的效应将会收到纤维蛋白原的影响,这会减弱真实的因果关系。
遗传变异作为工具变量
在孟德尔随机化中,遗传变异被用作工具变量,那么人群中的个体可以根据其遗传变异分为不同的亚组。
假设遗传变异在人群中“随机”分布,与环境和其它混杂因素无关,那么这些遗传亚组在环境和混杂因素上的水平应该没有差异。 此外,由于每个人的遗传密码都是在出生前确定的,因此在成熟个体中测得的变量不可能是遗传变异的“原因”,这也将因果关系的方向确定下来了。
现在回到我们的示例,如果我们可以找到与CRP水平相关的合适的遗传变异(或多个变异), 那么我们可以将由CRP平均水平较低的个体组成的亚组与CRP平均水平较高的亚组进行比较。
实际上,这就相当于我们正在人口中开展一项自然实验。 通过自然实验,自然随机给予了某些个体遗传“治疗”以提高其CRP水平。
如果携带相关遗传变异(与CRP水平升高且满足工具变量假设)的个体表现出较高的CHD发生率,那么我们可以得出结论,CRP是CHD的因果风险因素,而降低CRP可能会导致冠心病发病率降低。 同时我们可以进一步估算出因果参数。尽管孟德尔随机化方法使用遗传变异来回答推论性问题,但这些并不是遗传学问题,而是流行病学的因果推断问题。
谨慎使用MR
我们在使用任何特定的遗传变异作为工具变量时都需要十分谨慎,因为工具变量的假设无法得到充分验证,并且可能因各种流行病学和生物学原因而被违反。
因果推断的假设
工具变量的假设违背
工具变量的三条关键假设
- 工具变量与暴露密切相关;
- 工具变量与任何影响暴露-结局关联的混杂因素均不相关;
- 除非借助与暴露的关联,否则工具变量不会影响结局。
违反假设的例子
生物学机制
多效性(pleiotropy)
多效性是指与多种危险因素相关的遗传变异。如果用作IV的遗传变异与影响结局的其它危险因素相关联,则它就违反了第二或第三个IV假设。
如果遗传变异与能且只能影响暴露的其他因素相关(有时称为垂直多效性),那么就我们的目的而言,这不被视为多效性。
例如,FTO基因是饱腹感的决定因素,如果饱食感会且只会影响体重指数(BMI),则FTO基因的遗传变异可以用作BMI的IV。
但是,如果FTO基因也与血压相关联,并且这种关联并非完全由该基因与BMI的关联所介导,则我们无法在FTO基因中使用遗传变异做出关于BMI对结局的因果影响。
在实际研究中,我们可以通过使用位于基因区域中的遗传变异来尽量减少多效性,因为这些遗传变异的生物学功能已得到很好的理解。
例如,对于C反应蛋白(CRP),我们可以在CRP基因中使用已知与CRP水平及调节功能相关的遗传变异,然后评估这些遗传变异与测得的协变量之间的关联,以研究潜在的多效性。
渠化(canalization)
渠化或发展补偿是一种现象,个体通过这种机制来适应遗传变化,从而减少这种变化带来的影响,其在基因敲除研究中最明显。
遗传效应的这种爆发可能对其他变量产生下游影响。
非孟德尔式遗传
连锁不平衡(linkage disequilibrium)
遗传变异被一起遗传的一个特殊原因是他们在同一染色体上的物理接近性(物理距离相近)。
LD的不良后果是,在分析中使用的与因果变异相关的IV可能会对其它混杂因素产生影响,这将导致违反第二或第三IV假设(类似于由于多效性而引起的违反),针对这种情况我们可以通过检测已知潜在混杂因素与测量变量的关联来减少偏倚。
效应修正(effect modification)
实际上就是外部因子改变了研究因素与疾病的关联程度。
群体效应
人群分层(population stratification)
当被调查的人口可以分为不同的亚群时,就会发生人群分层。 如果遗传变异的频率和暴露的分布在不同的亚群中是不同的,则会导致变异与暴露之间的错误关联,这是由于亚群间的差异而不是遗传变异的影响所致。 如果人口结构连续变化,也可能违反IV假设,可以通过将研究人群限制在相同种族背景下来减轻人群分层的影响。
不过在定义较为宽泛的族群中仍可能存在系统性差异,比如亚洲人中不同种族的擦差异很明显(比如东亚人和中亚人),因此不建议在具有大量遗传异质性的人群中使用孟德尔随机化方法。
确定性效应(ascertainment effect)
确定性效应是指决策者会加重对被认为是确定性结果的选择。
在这里是指,如果遗传变异与研究的募集有关,则每个遗传亚组中个体的相对比例与人群中的自然比例不同。
关于假设的统计评估
目前还没有确定的方法可以确定与协变量的关联是由违反IV假设还是由暴露介导的。 此外,我们无法测试该遗传变异是否与无法衡量的混杂因素相关联。
一个明智的方法是对遗传亚组与IV偏倚之间的协变量不平衡进行定量和定性评估,并与假设检验结合。
检测IV有效性的另一种方法是观察遗传变异与结局之间的关联是否会因风险因素的调整而减弱。 如果有多个遗传变异,每个变异都是有效的IV,则可以依次计算单个IV的效应。 假设每个IV以相似的方式影响暴露,即使与暴露的遗传关联程度不同,单独的IV估计值也应相似。
在孟德尔随机化中,使用某种特定遗传变异作为IV的任何理由都应以生物学知识而非统计学检验为基础。
One-Sample MR 和 Two-Sample MR
两个重要的分类涉及到分析中包括多少个数据集,以及分析是使用个体水平的数据还是汇总的数据进行。
孟德尔随机化调查可以使用单个样本的数据进行(称为单样本孟德尔随机化),其中遗传变异、暴露和结果是在相同的个体中测量。
或者,在双样本孟德尔随机化中,变体-暴露关联在一个数据集中估计,变体-结果关联在第二个数据集中估计。
当在健康个体的横断面样本中估计与暴露的遗传关联,以反映与人群中暴露的通常水平的遗传关联,以及在病例对照研究中估计与二元疾病结果的遗传关联时,往往会发生双样本调查。