孟德尔随机化之因果推断的假设(一)

在前几期的内容中,我反复强调孟德尔随机化得出的是“因果”推论。在今天这一期中,我将重点阐明这种“因果推断”的含义。同时,我还将对工具变量理论进行了更详细的解释,并用生物学

在前几期的内容中,我反复强调孟德尔随机化得出的是“因果”推论。在今天这一期中,我将重点阐明这种“因果推断”的含义。同时,我还将对工具变量理论进行了更详细的解释,并用生物学的术语去解释各种可能违反工具变量假设并因此误导因果推断的情况。最后,我将和大家探讨如何检验因果关系和估计因果效应之间的差异,以及因果效应估计所必需的其他假设。


这一部分的内容比较多,我打算将它分成4期内容和大家讲解,今天讲的是第一部分,欢迎大家持续关注!

 

1 观察性关系和因果关系


一般来说,观察性研究得到的关联关系并不意味着因果关系,而将两个变量之间的观察关系解释为因果关系是一种典型的逻辑谬误。然而,在许多流行病学背景下,因果关系是概率性的,而不是确定性的,这一事实也使因果关系的定义变得复杂:例如,吸烟并不总是导致肺癌。

 


1.1 干预措施导致的因果关系


通常情况下,我们通过干预或操纵变量来探索因果关系,所以我们也称“没有干预就没有因果关系”,这也反映出直接实验对于证明因果关系是必要的。如果将暴露设置为两个不同的水平时,我们能观察到不同的结果,则存在因果关系。这与观察性关联不同,观察性关联通常代表在两个不同暴露水平上观察到结果的差异。如果存在与暴露相关的变量,则观察关联不仅会反映目标暴露的差异,还会反映与暴露相关的变量的差异。结局Y对应于暴露X的不同观察值x可以记为Y | X = x,它表示在X等于x的条件下出现Y。由于因果效应不能用概率分布来表示,因此需要附加的符号。将暴露X设置为给定值x时的结局Y记为Y | do(X = x),其中do运算符指示该变量(X)被设置为给定值(x)。

 


1.2 因果关系作为反事实对比

 

因果效应的一种常见定义是反事实对比:反事实,字面意思是与事实相反或相反,是指可能发生但没有发生的潜在情况。例如,在早晨,小明头疼。他可能会或可能不会服用阿司匹林片。在作出决定时,我们可以设想小明在两个潜在的宇宙中就是否服用阿司匹林做出了不同的选择。与每个宇宙相关联都是一个潜在的结果–他那天下午仍然头痛吗?很显然,这两种结果都无法同时观察到,而一旦他做出了决定,那么其中的一个宇宙和结果就会变成反事实。如果两个结果不同,则存在因果关系;这也就相当于他在不服用阿司匹林的宇宙中仍然头疼,但是在服用阿司匹林的宇宙中没有头痛,那么阿司匹林可以缓解头痛。


通过概率解释,假设结果是随机的而不是确定性的,如果阿司匹林宇宙中他仍会头痛的可能性比无阿司匹林宇宙中的可能性低,那么服用阿司匹林对缓解头痛具有因果关系。反事实方法的主要困难在于:因为我们始终无法同时观察到因果对比中所有结果,所以我们也永远无法衡量暴露对个体的因果效应。这意味着反事实因果估计不是实验性研究的答案,而是假设性研究的答案。但是,反事实方法具有许多吸引人的特征。Chiefly为定义因果关系提供了一个精确的框架,有助于因果关系的非正式和数学思考。


用符号表示,结局变量可以采用的潜在结果,其中Y | do(X = x)被写为Y(x)。如果暴露是二元的,则一个人的两个潜在结果是Y(1)和Y(0),并且X从X = 0增加到X = 1的因果关系是Y(1)-Y(0)。


 

1.3 基于图形模型的因果关系


图形模型,尤其是有向无环图,可以提供一种思考和表达因果关系的有用方法。图形模型包括代表变量的一组节点和代表因果关系的箭头。从变量A到变量B的箭头表示A对B有因果关系。图形模型不必包含所有中间变量(例如,如果A→C→B,则中间变量记为C),但必须包含图中所有变量的共同暴露(例如,如果A←D→B,则共同暴露为D)。变量之间的关系用有向箭头表示,指示有(直接)因果效应(条件依赖性),而没有箭头则表示无直接影响(条件独立性)。对于图表中包含的变量,直接因果效应只是“直接”,但是在绝对意义上不是直接的,而是可以通过中间变量起作用的。有向无环图(DAG)是不包含任何完整循环的图,例如A→B或A→B→C→A;如果存在循环,那么它意味着某些变量是其自身的原因(自我调控)。


例如,下图以图表的形式显示了工具变量(IV)的假设(参照往期内容)。为了简化图表,所有混杂变量都包含在一个“混杂变量”中,该变量对暴露和结果都有影响。我们看到从IV到风险暴露(假设1),从风险暴露到结果,从混杂因素到风险暴露和结果都有箭头。同样重要的是, IV和混杂因素之间没有任何途径(假设2);除了通过暴露的假设(假设3)之外,从IV到结果也没有任何途径。这表明,单纯改变IV而不改变暴露和混杂因素将不会影响结果。




通路不一定意味着仅由有向箭头组成,因为从IV(G)到结果Y没有任何路径(通过暴露除外),所以不能有链式序列(G→C→Y)或不包含暴露的分叉变量(G←D→Y),但是只要在分析中既不矫正E也不矫正E的后代(E可以是碰撞节点变量),这里是可以有倒叉关系(G→E←Y)的。在这些示例中,C代表暴露的竞争风险因素,D代表选择变量,例如种族,因此必须在分析中加以考虑,以防止由于人口分层而产生偏见。从形式上讲,遗传变异和结局必须通过危险因素和混杂因素进行d分离(d separation)。

 

 

1.4 基于多变量调整的因果关系


为了分析混杂因素,我们通常在观测数据分析中会矫正相关混杂变量。如果一组协变量(矫正项)已知且被条件化,则我们给出的关联估计就相当于因果估计,这也称作“充分”关系。但现实情况下,我们很难去找出所有的混杂因素并矫正它们,因此上述估计因果关系的方法就显得不太现实,为此我们必须寻找其它计算因果关系的方法。

 

 

上述内容主要向大家解释了因果关系的基本推断原理,这些理论和概念比较抽象,理解起来可能会比较费力,但不用担心。你只需要知道如下几点:


(1)关联关系不等于因果关系,除非进行了干预并矫正混杂因素;

(2)有向无环图是展示因果关系的有力手段;

(3)现实世界中排除所有的混杂因素几乎不可能,因此传统的因果估计方法需要改进(工具变量)。


这一期的内容就分享到这儿,咱们下期再见!

转自:生信与临床
  • 发表于 2020-09-13 23:21
  • 阅读 ( 119 )
  • 分类:基因组学

0 条评论

请先 登录 后评论
不写代码的码农
米老鼠

数据分析爱好者;临床医学生

9 篇文章

作家榜 »

  1. 祝让飞 117 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. 生信分析流 52 文章
  5. SXR 44 文章
  6. 张海伦 31 文章
  7. 爽儿 25 文章
  8. shengxinbaodian 16 文章