孟德尔随机化例子

这部分基本是筛了一下没用的内容。但是不意味着我看懂了。有些内容比较莫名其妙。我认为是因为我看的论文不多的原因。再看看。

纤维蛋白原与冠心病的因果关系

原文:Fibrinogen and coronary heart disease: test of causality by Mendelian randomization

文章主要是为了确定纤维蛋白原对冠心病(CHD)发生风险是否存在因果效应。

该研究观察到纤维蛋白原与冠心病风险有显著的相关性,但是增加其他协变量(如年龄,性别,是否吸烟以及BMI)都会使其因果效应弱化。 当对血浆载脂蛋白B/A1比值进行矫正时,研究者发现无纤维蛋白原和冠心病间无因果关联。

研究设计

该研究使用两种方法评估孟德尔随机化的因果效应。

首先,作者分析了来自病例对照研究——国际梗死生存研究(the International Studies of Infarct Survival,ISIS) 的病例-对照数据。ISIS包括4685例确诊心肌梗死(MI)患者和3460例对照者,这些人都检测了纤维蛋白原的含量。

其次,他们对特定基因变异和冠心病风险之间的关系进行了meta分析,并搜索大量文献获取相关信息。这个meta分析包括20个测量β-纤维蛋白原基因型的研究,总共有12 220例冠心病和18 716例对照组。在disease作为结局的背景下,如果感兴趣的结局不常见,病例-对照设计可能是必要的,因为分析的说服力取决于基因–结局 关联的精度,而基因–结局的关联又取决于病例数。

遗传工具

这里单个遗传变异被用作工具变量 (IV)。这个变异是纤维蛋白原基因启动子中的一个单核苷酸多态性(SNP),调节纤维蛋白原的产生,为纤维蛋白原可能引发的特异性关联提供了一些生物学上的可信度,也验证了它作为IV的有效性。 除了血浆载脂蛋白B/A1比值外,该变异和其他混杂因素之间没有强的相关性。

考虑到多重检验,尽管P值等于0.01并不是极端显著值,并且在使用p=0.05的阈值和标准Bonferroni调整过程后也不认为是显著的,但是结果表明该变异与纤维蛋白原和血浆载脂蛋白B/A1比值均相关。 因此该研究会存在下面的问题:如果孟德尔随机化结果显示了因果关系,但从经验上我们无法区分到底是纤维蛋白原还是血浆载脂蛋白B/A1比值对冠心病风险的因果影响。 另一种可能是,与遗传变异相关的血浆载脂蛋白B/A1比值的变化与遗传变异并不直接相关,而是由于纤维蛋白原水平的增加导致,这意味着孟德尔随机分析是有效的,因为对纤维蛋白原水平的临床干预也会增加血浆载脂蛋白B/A1的比率。如果血浆载脂蛋白B/A1比值是从纤维蛋白原到冠心病风险的因果途径的中间因素,则不应在观察性分析中对其进行调整。

在该研究中,我们无法区分该遗传变异与血浆载脂蛋白B/A1比值之间的关联是偶然出现的,还是基因多效性导致的,抑或是纤维蛋白原的因果途径的证据。

统计学方法

在单独研究和meta分析中,研究人员评估了纤维蛋白原对冠心病风险的因果影响,但没有估计因果参数。在单独研究中,他们使用线性回归估计了对照组中纤维蛋白原水平和遗传变异的关系,使用逻辑回归估计了总人群中冠心病与该遗传变异的关系。

在meta分析中,研究人员使用每个研究的summary数据来估计每个研究中该变异与冠心病风险的关系,然后使用固定效应的逆方差加权法将特定研究的估计值进行合并。由于纤维蛋白原水平的数据恰到好处地支持了这一点,因此使用了加性模型。在这两种情况下,研究结果被认为是每增加一个变异拷贝能导致冠心病的风险比。

结果

纤维蛋白原浓度的长期差异不是冠状动脉疾病风险的主要决定因素。

分析表明,该变异与冠心病风险无关联,与疾病风险的遗传关联有一个窄的置信区间(CI):每增加一个导致纤维蛋白原升高的遗传变异拷贝,其风险比为1.06(95% 置信区间为 0.96 到 1.16)。

在meta分析中,每增加一个身高纤维蛋白原的遗传变异,其增加的风险比为:1.00(95% 置信区间为0.95到1.04)。

注解

该研究结果的一个弱点是没有提出关于纤维蛋白原对冠心病风险影响的因果估计。

虽然每增加一个等位基因的风险比估计为1.00 (95% 置信区间为0.95到1.04)似乎是一个小的影响,但每增加一个等位基因只与纤维蛋白原水平的小幅增加有关(0.14 (标准误为0.024) g/l), 这意味着基于95%置信区间的上限(假设纤维蛋白原与冠心病风险之间存在对数线性关系),纤维蛋白原的每单位标准差增加(在对照组中估计值为0.81 g/l)仍然可能导致冠心病风险约25%的增加。

肥胖(BMI)与高血压的因果关系

原文:Does greater adiposity increase blood pressure and hypertension risk? Mendelian randomization using the FTO/MC4R genotype

该研究主要考虑肥胖对血压的因果影响。

表面上看,肥胖与血压有关,尽管有许多潜在的混杂因素可能使观察估计的结果产生偏差。 虽然随机试验显示减肥,血压也会相应下降,但这些干预措施可能还会影响其他变量,如体育活动和饮食。 虽然肥胖的流行率随时间的推移而增加,但现实中血压和高血压的趋势却与之相反,这也导致一些人质疑这种观察性结果是否真的是因果关系。 高血压(重度高血压)的定义是收缩压超过140 mmHg(重度高血压超过160 mmHg),舒张压超过90 mmHg(重度高血压超过100 mmHg),或(两种情况下)服用抗高血压药物。

研究设计

作者分析了来自哥本哈根的37027个独立个体的代表性数据。所有参加者都具有相同的种族背景(丹麦),选出这些样本进行研究主要是因为他们能反映哥本哈根的一般人口组成。

对于结局是连续性变量而不是二分类疾病时,横断面研究能够为孟德尔随机化实验提供所有必要的信息,而无需花费一段时间对参与者进行跟踪随访,这是非常节约时间和资源的。 精心设计的人群研究的另一个优势是增加了外部有效性,因此,孟德尔随机化研究的估计结果代表了一个队列的效应估计,这与今后需要进行干预的人群相似。

遗传工具

两种遗传变异被用作IV。这些SNP位点位于FTO和MC4R,它们在之前的一些研究中已经被证明与体质指数(BMI)相关。 尽管FTO基因的变异已知与食物摄入有关,但是这两个基因区域的确切功能尚不清楚。

尽管孟德尔随机化不要求了解太多关于遗传变异所在基因的功能,但是使用未知功能的遗传变异作为工具变量进行分析可能会给接下来的结果解释带来一定的麻烦。 由于工具变量的假设在科学上不是非常确定,那么据此得出特定风险因素和结局有因果关联是不可靠的。 对于BMI这样的风险因素来说尤其如此,就像在减肥的随机试验中很难分离出单一的因果因素一样。 与生物标志物如纤维蛋白原不同,没有单一的调控基因来调控“产生BMI”或“BMI受体”。 比较孟德尔随机化估计和潜在的临床干预的效果还有另外的困难,因为干预和遗传对BMI降低的影响可能有不同的作用途径。 这可能是由于途径之间存在差异,导致BMI变化对血压和高血压的比例效应存在异质性(治疗效果异质性)。 例如,如果在分析中使用了几种基因变异,那么有些变异可能与影响血压的BMI变化有关,而有些则与不会与影响血压变化的BMI有关。

统计方法

利用广义矩估计法(GMM)估计了肥胖对血压的因果影响。

肥胖用“相对BMI”来表示,它是通过计算个人观察到的BMI与预测的BMI的比值所得,这个预测的BMI是用年龄、性别和身高的线性回归模型拟合得到的。

利用两阶段最小二乘(2SLS)和有限信息极大似然(LIML)方法计算了结果;这里的每种方法都得到了相似的结果。

另外,研究人员使用了Durbin-Wu-Hausmann检验比较了观察性估计和IV估计这两种结果间的差异。

结果

IV分析的结果显示:BMI对血压和高血压有正向因果影响,并且这种IV估计的效应量与观察性结果的大小相似。 例如,在矫正了年龄、性别和身高后,观察性研究结果发现每增加10%的BMI可以导致收缩压增加2.75mmHg (95%置信区间:2.62 ~ 2.88); 进一步矫正了社会行为等因素后,每增加10%的BMI可使收缩压增加2.54mmHg (95%置信区间: 2.39~2.69)。 与IV分析结果相比,BMI增加10%所引起的收缩压增加的相应估计值为3.85 mmHg(95%置信区间:1.88~5.83)。

FTO上的SNP与BMI有统计学上的密切联系,每增加一个效应等位基因(effect allele)拷贝数,会使BMI增加1.18%(95%可信区间0.96~1.41)。 同样它可以使血压增加0.63 mmHg (95%可信区间0.33~0.93)。

但是MC4R基因上的SNP效应则相对弱一些,每增加一个效应等位基因拷贝会使体重指数增加0.78%(95%置信区间:0.53 -1.04),而血压则增加0.20 mmHg(95%置信区间:-0.14~0.54)。

这可能是由于MC4R SNP与BMI的相关性较低低以及相关估计的统计不确定性,但它可能反映了由两个变量确定的因果效应的异质性。

FTO SNP与严重高血压的相关性在矫正BMI后并未完全减弱:在矫正了年龄和性别后比值比(OR)减弱为1.07 (95%置信区间:1.041.11);进一步矫正社会行为等因素后变为1.07(95%置信区间:1.031.11);再进一步矫正log(BMI)后OR值变为1.04(95%置信区间:1.01~1.08)。虽然不能完全衰减,但有限的衰减表明肥胖对高血压的因果影响可能不能简单地解释为BMI的函数。虽然没有出现完全衰减的现象,但有限的衰减表明肥胖对高血压的因果影响可能不能简单地解释为BMI的作用。

每种变异的Durbin–Wu–Hausmann tests检验结果均不显著,表明观察性研究结果和IV估计之间没有差异。

注解

尽管孟德尔随机化分析表明肥胖与血压有因果关系,但遗传变异的未知功能限制了所能得出结论的确定性,因此我们对该因果关系的解释也是有限的。

脂蛋白(a)与心肌梗死的因果关系

原文:Genetically elevated lipoprotein(a)and increased risk of myocardial infarction

该研究主要检验脂蛋白(a)[英文简写为Lp(a)]对心肌梗死(MI)风险的因果影响。

脂蛋白(a)是一种脂质(本质上是一种低密度脂蛋白(LDL)颗粒)和一种蛋白质(称为载脂蛋白(a))的组合。Lp(a)的浓度在个体之间差异很大,具有很高的遗传性。

研究设计

该研究分析了三项丹麦参与者的研究数据:

  • 第一项是随访16年的前瞻性研究,该研究名称为哥本哈根城市心脏研究(the Copenhagen City Heart Study)。此研究包括9867名有遗传数据的参与者,其中4514人进行了血浆Lp(a)水平测量,有599人在随访期间发生心肌梗死。
  • 第二项是一个横断面研究,主要针对的是哥本哈根的一般人口。该研究由29 388名具有遗传数据的参与者组成,其中5543人进行了Lp(a)血浆水平测量,994人在进入研究前的确定时间内发生了心肌梗死。
  • 第三项是一个病例对照研究,该研究称为哥本哈根缺血性心脏病研究(theCopenhagen Ischemic Heart Disease Study)。该研究的病例组由1231名参与者组成,他们都有基因数据和心肌梗死资料,对照组由1230对应的哥本哈根城市心脏研究(the Copenhagen City HeartStudy)的 对照组成。因此,该病例-对照研究将哥本哈根城市心脏研究的有效人数减少到8637人(原始研究有9867人-1230个对照)。

通过结合来自前瞻性、横断面和病例-对照研究的证据,该研究可以充分利用了每种方法的优点。 这项前瞻性研究测量了一定时间点的Lp(a)水平,从而能够评估遗传变异的长期关联。 横断面研究是最简单的研究设计,可以评估大量人群中暴露的遗传关系。虽然已知病例对照研究设计存在潜在的弱点,包括选择偏倚,但可以在病例丰富的样本中更精确地估计遗传与结果的关系。虽然没有在所有参与者中测量Lp(a)水平,但这并不否定孟德尔随机化实验的结果,而且,如果暴露量难以测量或测量费用昂贵,这甚至可能是一个非常有价值的设计策略。

遗传工具

值得注意的是,本研究中的遗传变异不是SNP,而是LPA基因中的拷贝数变异(copy number variant,CNV),也即kringle IV型2(KIV-2)的多态性。

个体的DNA重复部分数量是可变的,称为kringle重复,这个数量与Lp(a)浓度成反比。在这里我们应该清楚:将拷贝数变异的多态性作为IV使用在生物学上有很好的合理性(kringle IV中的IV是罗马数字4,而不是工具变量的缩写)。 上一期内容中,与BMI相关的两个变异解释了不到1%的BMI变异,而这里的KIV-2多态性解释了超过20%的Lp(a)变异。

统计方法

该研究采用两种方法来估计Lp(a)对心肌梗死风险的因果影响。

首先,在每个数据集中评估IV和MI风险之间的关联。为了解决潜在的非线性问题,IV的定义是根据kringle重复的数量将总体划分为四分位。 在前瞻性研究中,使用Cox比例风险回归对一系列协变量进行调整来评估这种关联。 在横断面研究和病例对照研究中,使用了logistic回归和匹配logistic回归。对一组有限的协变量进行了调整,这些协变量被认为不会受到潜在的反向原因(如年龄、性别和糖尿病状态)的影响。

其次,仅在前瞻性研究中采用正式的IV方法,也即利用IV的上四分位数和下四分位数中Lp(a)的平均水平和MI的风险构造一个比率估计,置信区间用Fieller’s定理求值。

结果

研究结果表明,Lp(a)对心肌梗死风险有正向的因果关系。

在哥本哈根城市心脏研究(the Copenhagen City Heart Study)中,以第四分位组为参照组,MI的优势比(OR)在第一分位组为1.3(95% 置信区间为1.1 ~ 1.5),第二分位组OR为1.1 (95% 置信区间:0.9 ~ 1.3),第三分位组为0.9 (95%置信区间为0.8~1.1),该趋势的P值=0.005。

与此同时,哥本哈根缺血性心脏病研究(the Copenhagen Ischemic Heart Disease Study)的结果对应的是,第一分位组OR=1.4 (95%置信区间为1.1~1.7)、第二分位组OR=1.2 (95%置信区间为1.0~1.6)和第三分位组OR=1.3 (95%置信区间为1.0~1.6)。

在哥本哈根城市心脏研究中,Lp(a)含量每增加一倍,心肌梗死的危险比(HR)的IV估计值(HR=1.22, 95%置信区间为1.09~1.37)比观察性研究的估计结果(HR=1.08, 95%置信区间为1.03到1.12)大得多。

这一发现在一项类似的研究中得到了重复,它可能反映了长期Lp(a)水平差异导致的加性效应,类似于观察到的低密度脂蛋白胆固醇(LDL-C)的结果一般。 这也可能是KIV-2多态性与Lp(a)浓度和Lp(a)颗粒大小的关联,它们也涉及作为心肌梗死的潜在危险因素,在缺乏进一步证据的情况下,我们很难将这两个变量分离。

注解

IV估计值的解释受限于kringle重复的数量与Lp(A)水平是非线性关联的。IV估计应解释为一种种群的平均效应,比较具有不同平均接触水平的遗传亚群。在非线性关系下,IV估计值不一定代表干预对个体Lp(a)的影响

高密度脂蛋白胆固醇(HDL-C)与心肌梗死的因果关系

原文标题:Plasma HDL cholesterol and risk of myocardial infarction: a Mendelian randomisation study

该研究主要检测高密度脂蛋白胆固醇(HDL-C)对心肌梗死风险的因果影响。

今天这篇文献主要是为了和大家探讨一下在MR研究中我们如何看待SNP(IV)的数量。作为概念证明,它还对LDL-C对心肌梗死风险的因果效应进行了评估。

研究设计

作者分析了6项前瞻性研究和14项横断面研究的个体数据,包括20 913例心肌梗死病例和95 407例对照,不过这里IV分析假设的评估是在更大的一组研究中进行的。

遗传工具

该研究提出了两种方法来评估和估计HDL-C对心肌梗死风险的因果影响。

首先,研究者使用单个SNP作为IV,该SNP是内皮脂肪酶基因的功能缺失(loss of function)的错义突变,并且已知其与HDL-C浓度有功能性关联,同时在数据集中该SNP与LDL-C或甘油三酯的浓度没有任何关联(p > 0.05)。

其次,研究人员使用14个与HDL-C相关但与LDL-C或甘油三酯不相关的变异(p > 0.01)构建等位基因评分(或基因风险评分),接着使用构建出的等位基因评分作为IV进行分析。 为了进行比较,他们还使用13个与LDL-C相关的遗传变异构建了等位基因评分,这13个遗传变异与HDL-C和甘油三酯均不相关。

作者使用这两种方法的原因是:

  • 第一种方法在从科学上来讲更严格,因为作为IV使用的遗传变异的功能是已知的
  • 不过,第二种方法能给出了更多的统计效力,因为等位基因分数解释暴露的程度更高
  • 采用这两种分析的另一个实际原因是,由于缺失一个或多个遗传变异的数据,第二种分析在更小的参与者子集中进行,包括12 482个心肌梗死病例和41 331个对照,因此构建基因风险分数来增加统计效力。

只有在有充分证据证明其作为工具变量的有效性的情况下使用基因变异作为IV(也即使用被明确证实有生物学关联的遗传变异),不过这样有统计效力偏低的风险; 但如果包括所有的变异(即使它们的功能还不完全清楚),也有增加因果估计偏倚的风险。

这其实是一种两难的抉择!一个明智的方法是在实践中使用更少的“更安全”的IV估计值作为主要的分析结果,然后再使用更多的遗传变异作为二次分析结果,承认统计不精确和必要的科学假设的不确定性来解释并估计因果效应。

统计方法

在使用单一遗传变异作为IV的第一种方法中,可以使用Stata中的qvf命令计算每个前瞻性研究的因果估计(R语言也可以实现),以拟合具有稳健标准误差的两阶段logistic模型。

在其中两项研究中,在分析的第一阶段,采用了两阶段的方法和使用广义估计方程的顺序回归,这主要是用来解释相关个体的信息。接着使用固定效应模型的逆方差加权法将这些研究水平的因果估计值结合在。

在第二种方法中,我们为HDL-C和LDL-C分别构建了一个加权等位基因评分,使用大型GWAS meta分析结果的系数(beta)作为权重(详细计算请参见往期内容多基因风险评分2)。 在横断面研究中,使用logistic回归来评估等位基因评分与心肌梗死的关联,需要注意的是权重的数据源并非完全独立于所分析的数据,因为有些研究同时包含在两种分析中。

结果

作者的结论是“一些由遗传机制提高的血浆HDL-C似乎不能降低心肌梗死的风险“。

从流行病学的观察性结果来看,内皮脂肪酶基因中每个遗传变异等位基因的预期优势比(OR)为0.87 (95%置信区间为0.84 ~ 0.91)。 这是通过三角测量得到的观测估计的关联,通过多变量矫正的logistic回归分析HDL-C与MI风险的关系,并观察到该变量与HDL-C的遗传关系。 然而,该变异与心肌梗死的风险无关(OR=0.99,95%置信区间为0.88~1.11)。从孟德尔随机化中,对等位基因评分,HDL-C每增加1个标准偏差,那么预期的流行病学OR值为0.62(95%置信区间为 0.580.66),而孟德尔随机化研究的结果则是OR为0.93(95%置信区间为0.681.26),可以看出两者的研究结果很不一致。不过,LDL-C每增加1个标准差,观察流行病学(OR=1.54, 95%置信区间为1.451.63)和孟德尔随机化(OR=2.13,95%置信区间为1.692.69)的估计方向一致的。

作者的结论反映了单一SNP分析的效力有限,因果效应的置信区间和观测估计基本上是重叠的,而且对等位基因得分的具体功能认知有限,这其中可能包含与HDL-C不完全或不直接相关的变异。

注解

除了上述结论的局限性,本文还证明了应用孟德尔随机化分析的统计困难性,因为所分析的研究是异质性的。

尽管可以在许多研究设计中进行孟德尔随机化调查,但研究之间的差异和每个研究的具体特征可能会使现有数据的整体综合分析具有挑战性。

作者选择了一种实用的方法,即将使用单一基因变异的更保守的分析与使用等位基因评分的更投机的分析相结合。 这与LDL-C的平行分析形成对比,后者提供了等位基因评分方法的可信性,作为一个积极的因果效应LDL-C对心肌梗死的风险进行了评估。