本章目录¶
- QTL 的基本概念
- cis、trans 和细胞类型特异性
- 共定位、TWAS 和孟德尔随机化
- 从 eQTL 扩展到多组学 QTL
- 解释风险
- CNS / 高影响案例深读:GTEx 如何把遗传变异连接到分子机制
常见问题。 eQTL 用来问“遗传变异是否通过改变表达影响分子状态或表型”。它是 GWAS 到机制之间的桥:把 SNP 从抽象关联位点连接到基因表达、剪接、染色质、甲基化、蛋白或代谢物。
一般分析思路。 先把 genotype 和 matched molecular phenotype 对齐,控制群体结构、批次、细胞组成和隐藏因子;再做 cis/trans QTL、细胞类型或条件特异 QTL、共定位、TWAS/MR,最后用 ATAC、3D genome、扰动和功能实验验证候选链条。
为什么这样分析。 SNP-expression 相关不等于 GWAS 因果机制。GWAS 和 eQTL 可能只是 LD 中不同因果变异造成的重叠信号;bulk eQTL 还会被细胞组成稀释或伪造,所以必须做共定位和细胞类型/条件分层。
生物学主线。 变异可以通过 promoter、enhancer、splicing、RNA stability、chromatin accessibility 或 methylation 改变分子表型。多组学 QTL 的价值是把“遗传差异”拆成可验证的分子中介链。
一个 SNP 不一定落在蛋白编码区。它可能落在 promoter 或 enhancer 上,改变转录因子是否能结合;也可能影响剪接位点、UTR、RNA 稳定性或染色质状态。这样一来,两个个体虽然有同一个基因,但这个基因在某个组织里表达多少可能不同。
eQTL 就是把 genotype 和 expression 放在一起看:某个等位基因是否总是伴随某个基因表达更高或更低。它帮助我们从“这个 GWAS 位点和性状相关”推进到“它可能通过改变哪个基因、在哪个组织或细胞类型中起作用”。
12.1QTL 的基本概念¶
QTL(Quantitative Trait Locus)是影响数量性状的遗传位点。eQTL 研究遗传变异如何影响基因表达;sQTL 研究剪接;meQTL 研究甲基化;caQTL 研究染色质可及性;pQTL 研究蛋白水平;mQTL 研究代谢物。它们都把遗传变异与中间分子表型连接起来。
eQTL 的基本模型是:某个 SNP 的基因型是否解释某个基因表达的差异。如果一个 GWAS 位点同时也是某基因的 eQTL,那么该基因可能介导遗传风险,但还需要更严格的共定位和功能证据。
12.2cis、trans 和细胞类型特异性¶
cis-eQTL 通常指距离目标基因较近的变异影响该基因表达,效应较容易检测和解释。trans-eQTL 指远端变异影响其他基因表达,可能通过转录因子、信号通路或细胞组成间接产生,效应更复杂,也更容易受混杂影响。
eQTL 具有强烈的组织和细胞类型特异性。一个变异可能只在肝细胞、免疫细胞或特定刺激条件下影响表达。疾病相关 GWAS 位点若落在免疫细胞特异 enhancer 中,用全血平均表达或不相关组织做 eQTL 可能看不到真实机制。
12.3共定位、TWAS 和孟德尔随机化¶
共定位分析问的是:GWAS 信号和 eQTL 信号是否可能由同一个因果变异驱动。它比“显著位点重叠”更严格,因为 LD 可以让不同因果变异看起来在同一区域。
TWAS 通过遗传预测的表达量与性状关联,寻找可能介导性状的基因。孟德尔随机化利用遗传变异作为工具变量,评估分子表型对疾病的潜在因果影响。这些方法都依赖工具变量、LD、共定位和模型假设,不能机械解释为因果证明。
12.4从 eQTL 扩展到多组学 QTL¶
多组学 QTL 可以构建更完整链条:GWAS 变异影响 chromatin accessibility,accessibility 影响表达,表达影响蛋白,蛋白影响代谢和表型。这样的链条比单独 eQTL 更接近机制,但每一层都可能有组织特异性、时间特异性和测量噪音。
flowchart LR
SNP[遗传变异] --> caQTL[染色质可及性 QTL]
caQTL --> eQTL[表达 QTL]
eQTL --> pQTL[蛋白 QTL]
pQTL --> Trait[性状/疾病]
SNP --> meQTL[甲基化 QTL]
meQTL --> eQTL
12.5解释风险¶
QTL 整合最常见的错误,是把“同一区域存在多个信号”直接解释为同一机制。LD、多个因果变异、组织不匹配、细胞组成、反向因果和选择偏倚都可能造成误导。稳健解释通常需要共定位、精细定位、细胞类型注释、扰动实验和独立队列复现。
QTL 的价值在于把遗传关联拉向分子机制,但它仍然是统计桥梁。桥梁越长,越需要中间支撑。
12.6CNS / 高影响案例深读:GTEx 如何把遗传变异连接到分子机制¶
我选的案例。 GTEx Consortium 2020, Science。它不是单一疾病论文,而是跨组织遗传调控图谱,最适合学习 eQTL 的核心价值:把 GWAS 的非编码位点翻译成组织、基因和调控方向的机制假设。
科研逻辑图。
flowchart LR
Q[真实问题: GWAS 非编码位点通过哪个基因/组织起作用] --> D[设计: 同一 donor 的 genotype + 多组织 RNA]
D --> E[cis-eQTL mapping]
E --> T[组织特异性/共享性]
G[GWAS summary] --> Coloc[共定位: 是否同一 causal variant]
E --> Coloc
Coloc --> H[机制假设: variant -> expression -> trait]
H --> V[细胞类型定位 / perturbation / reporter / CRISPR]
为什么必须做 eQTL。 GWAS 常把信号定位到非编码区域,但不知道它影响哪个基因、在哪个组织或细胞类型起作用。最近基因原则会经常错,因为 enhancer 可以远距离调控,LD 又会让多个变异共享信号。eQTL 把 genotype 和 expression 放在同一批个体中建模,是从关联位点走向分子机制的桥梁。
原理如何支撑结论。 GTEx 的基本统计问题是对每个 variant-gene pair 拟合表达量与基因型剂量的关系,同时控制 batch、hidden factors、sex、ancestry 和 tissue context。cis-eQTL 说明近端变异影响基因表达;跨组织比较说明调控效应是否共享;共定位分析进一步问 GWAS 和 eQTL 是否可能由同一 causal variant 驱动,而不是只看两个 Manhattan peak 是否重叠。
从实际科研逻辑怎么读。 eQTL 整合最忌讳“GWAS hit 附近有个 eQTL,所以这个基因就是因果基因”。正确读法是三问:组织是否相关?GWAS 和 eQTL 是否共定位而不是仅仅 LD 重叠?表达改变是否有方向和功能上的合理性?GTEx 的强处是跨组织,能告诉你同一个 variant-gene association 在哪些组织出现,从而把候选机制放进合适的生物场景。
关键结果如何支撑生物学声明。 cis-eQTL 支持“变异调控附近基因表达”;tissue-specific eQTL 支持“调控效应受组织环境限制”;colocalization 支持“GWAS 和 eQTL 可能共享因果变异”。三者合起来,才能说“某疾病风险可能通过某组织中的某基因表达改变起作用”。植物研究里,如果性状是根系抗病,却用叶片 eQTL 去解释,逻辑就弱;若用感染后的根组织 eQTL/caQTL/meQTL,共定位和生物学解释都会强很多。
结论边界。 eQTL 不是因果证明。一个 GWAS locus 和 eQTL locus 重叠可能来自 LD 中两个不同 causal variants;表达变化也可能是 downstream effect。GTEx 以 bulk tissue 为主,细胞组成会稀释或制造信号。今天重做应加入 single-cell eQTL、spatial eQTL、多组学 QTL、fine mapping 和 CRISPR perturbation,才能把“共定位假设”推向“调控机制”。
参考。 GTEx Consortium. 2020. Science. https://www.science.org/doi/10.1126/science.aaz1776