看教程不够直观,那就看视频吧! >>点击加载视频
为了理解孟德尔随机化,我们有必要对遗传学有一个粗略的了解。
1. 读取遗传密码
许多生物的遗传信息(或基因组)由长长的一串遗传密码组成,这些遗传密码以DNA(脱氧核糖核酸)的形式存在,DNA是编码生命的分子,被包装成染色体。人类有23对染色体,每对染色体中的一条来自母亲,一条来自父亲。染色体包含基因,这些基因是遗传密码的可定位区域,编码一个可遗传信息单元,但是并非所有的遗传序列都属于基因区域,并且染色体的大部分由称为非编码DNA的中间遗传物质组成。每个染色单体有两条链,每条链由一个可以由字母A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)表示的核苷酸序列组成。这些核苷酸链以互补方式配对(A与T配对,C与G配对),这样每个链包含相同的信息,因此仅考虑其中一个链。
假设一条染色体中给定基因座上的DNA序列为:
...ATTACGCTTCCGAGCTTCCGCAG...;
并且配对染色体上的相同基因座显示为:
... ATTACGCCTCCGAGCTTCCGCAG ...
那么带下划线的核苷酸代表特定位点处的多态核苷酸:它以各种形式存在。所有个体都包含许多遗传突变,其DNA编码与人群中普遍发生的DNA编码有所不同。单核苷酸多态性(SNP)是一种突变,其中特定位点的单个核苷酸碱基已被不同的核苷酸取代,而出现在每个基因座上的不同可能的核苷酸称为等位基因。例如,在上面突出显示的基因座上,一个染色体的字母为T,另一个染色体的字母为C:因此T和C是此特定SNP的等位基因。如果只有这两种可能性,那就是一个二元SNP,三元和四元的SNP很少见,但也已观察到。对于二元SNP,通常用大写字母(例如A)表示较常见的等位基因,称为野生型或主要等位基因,而用小写字母表示较不常见的等位基因(变异或次要等位基因)字母(例如a)。给定SNP的群体中次要等位基因(最小等位基因)的比例称为“次要等位基因频率(最小等位基因频率)”。
尽管某些遗传突变似乎是特定个体所特有的,但有相当一部分的遗传突变是在人群中普遍存在的。SNP沿基因组平均每300个核苷酸大约出现一次,并且现今已编纂了广泛的SNP目录。由于人们每个染色体有两个副本(父本和母本),因此可以将每个二元 SNP的个体分为对应于其等位基因组合(其基因型)的三个可能的亚组,这些亚组是主要野生纯合子(AA),杂合子(Aa)和突变纯合子(aa)。我们将这些子组分别表示为0、1和2,对应于该SNP的次要等位基因数目。对于更复杂的遗传变异,例如三方SNP,其中一个位点有3个可能的等位基因,则SNP给出的6个可能的亚组没有自然排序。当考虑单个染色体上的多个SNP时,每个染色体上等位基因的组合称为单倍型。
例如,如果某人具有一个染色体读数:
... GCACCTTAC ... GTAGAATC... TCAACTGTCAT
其他阅读:
... GCACCGTAC ... GTAAAATC... TCAACTGTCAT
那么该个体的前两个SNP是杂合子,最后一个SNP是纯合子,其单倍型是TGT和GAT。由于单倍型是同一条染色体上的一系列等位基因,因此单倍型模式(尤其是在物理上靠在一起的SNP)通常一起遗传,这意味着遗传变异并不总是独立分布。如果使用在大量个体中观察到的遗传模式,我们可以使用计算机软件从SNP数据推断出单倍型,因为通常并非所有可能的等位基因组合都将出现在群体的染色体上。
在某些情况下,我们可以从SNP数据中唯一确定单倍型,而在其他情况下,此确定存在不确定性。如果SNP满足IV假设,则单倍型也将满足IV假设。当然,遗传变异的其他模式也可以用作IV,例如拷贝数变异(其中一部分遗传物质重复变异)。但是,在现在的讨论中,我所指的的遗传变异都是SNP,这里SNP具有特定的编号,以“rs”开头,例如rs1205。
2. 使用遗传变异作为工具变量
我们在使用任何特定的遗传变异作为工具变量时都需要十分谨慎,因为工具变量的假设无法得到充分验证,并且可能因各种流行病学和生物学原因而被违反(后续我会和大家详细介绍)。
下面介绍一个使用有效遗传工具变量的例子:在日本人中,ALDH2基因的常见遗传突变影响酒精的加工,导致致癌副产物乙醛的过量产生,以及恶心和头痛。我们可以使用这种遗传变异作为工具变量来评估饮酒与食道癌之间的因果关系。在这里,饮酒是暴露而食道癌是结局。由于吸烟是食道癌的另一个危险因素,所以酒精和吸烟之间的紧密联系使传统流行病学研究得到的因果关系大打折扣。具有两个拷贝的ALDH2多态性的个体由于短期症状的严重性而倾向于避免饮酒,他们患食道癌的风险是没有突变的人的三分之一。该突变单拷贝的携带者仅表现出对酒精的轻度不耐受,他们仍然可以喝酒,但是他们不能有效地加工酒精,并且增加了乙醛的暴露量。与没有突变的等位基因携带者相比,携带突变的等位基因的人患食道癌的风险是未患突变者的三倍,而在酗酒者的研究中则高达十二倍。这是基因与环境相互作用的一个例子(这里是基因型和酒精消耗之间的相互作用),其结论是饮酒会导致食道癌。
在研究各种因果关系的科学背景中,孟德尔随机化有可能成为有用的工具,但是必须谨慎地应用它,因为其因果关系的主张是以无法凭经验检验的假设为代价的。另外我们必须完善其方法,因为通常需要多种遗传变异的数据或从多个研究人群中获取的数据才能找到有意义的发现。但是,如果使用得当,它可以洞察变量之间潜在的因果关系,这是其他方法所无法比拟的。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!