跳转至
11
Part 4 · 遗传变异与数量性状

GWAS 与群体遗传

用自然群体中的遗传变异定位影响性状的基因组区域。

本章学习导向:GWAS 一般为了解决什么问题?

常见问题。 GWAS 用来问“自然群体中的哪些遗传变异与性状差异相关”。它适合定位复杂性状候选区域、发现自然等位基因、研究地方适应和驯化,也能为后续功能验证提供入口。

一般分析思路。 先保证表型定义和基因型 QC,再控制缺失率、MAF、亲缘关系和群体结构,建立 SNP-phenotype 关联模型;随后看 QQ/Manhattan、LD block、fine mapping、候选基因注释、eQTL/ATAC/表达整合和独立群体验证。

为什么这样分析。 关联信号很容易被群体结构、亲缘关系、表型噪音和 LD 误导。GWAS peak 通常只是标记了一个相关区域,不等于峰顶 SNP 是因果变异,也不等于最近基因就是因果基因。

生物学主线。 复杂性状常由多位点、小效应、环境和调控变异共同塑造。读 GWAS 时要从“显著位点”继续追问:哪个变异、哪个细胞/组织、哪个调控或蛋白机制、在哪个环境中影响表型?

零基础生物学底座:为什么同一种生物个体之间会有性状差异?

同一物种的不同个体,DNA 序列并不完全一样。有些位置是单个碱基不同,叫 SNP;有些是插入、缺失、拷贝数或大片段结构不同。这些遗传差异可能改变蛋白,也可能改变基因什么时候、在哪里、表达多少。

性状是基因、环境和发育过程共同作用的结果。株高、开花期、抗病性、产量或疾病风险,通常不是一个基因决定,而是很多遗传变异各贡献一点,再受环境影响。GWAS 的基本想法就是:如果某个遗传变异附近的人或材料总是有不同表型,这个区域可能藏着影响性状的原因。

11.1GWAS 的基本思想

GWAS(Genome-Wide Association Study)在全基因组范围内检验遗传变异与表型之间的统计关联。基本模型是:对每个 SNP,比较不同基因型个体的表型是否系统性不同。对于二分类疾病常用 logistic model,对于连续性状常用 linear model 或 mixed model。

GWAS 的优势是无需预先指定候选基因,可以在自然群体中发现影响性状的基因组区域。局限是它通常定位到关联区域,而不是直接定位到因果变异;它对常见变异更有力,对罕见变异、结构变异和复杂环境互作的能力有限。

生物学补充:复杂性状通常不是一个基因的故事

GWAS 的生物学前提,是自然群体中存在影响性状的遗传变异。可是多数复杂性状不是 Mendelian trait,而是 polygenic architecture:很多位点各自贡献很小效应,共同改变发育、代谢、免疫、形态或行为。株高、开花期、抗病性、产量、药物反应和常见疾病,往往都由主效位点、小效位点、环境和基因互作共同塑造。

变异的功能也不只有“改变蛋白”。编码变异可能改变酶活性、受体结合或蛋白稳定性;调控变异可能改变 enhancer、promoter、splicing、polyadenylation 或染色质状态;结构变异可能改变基因剂量、融合、拷贝数或远端调控关系。很多 GWAS 信号落在非编码区,不是因为它们“不重要”,而是因为复杂性状经常通过细胞类型特异的调控元件改变基因表达。

植物 GWAS 还要格外重视地方适应和驯化。一个等位基因可能不是普遍“好”或“坏”,而是在特定光周期、温度、病原压力、土壤条件或栽培制度下有优势。换句话说,GWAS 命中的不是抽象的性状按钮,而是自然选择、育种选择和环境历史共同塑造的遗传变异。

Manhattan plot from a GWAS

图 11.1 · GWAS Manhattan plot。 Manhattan plot 的每个点是一个变异位点,横轴是基因组位置,纵轴是关联显著性。峰值说明某区域与表型关联,但不等于峰顶 SNP 就是因果变异。来源:Hu et al. 2016, PLOS Genetics, via Wikimedia Commons, CC BY 4.0。

11.2连锁不平衡和群体结构

连锁不平衡(LD)指相邻变异在群体中非随机共遗传。GWAS 命中的 SNP 往往只是与因果变异处在 LD 中的标记位点。LD 既帮助我们用有限 SNP 捕获附近遗传信息,也限制了定位分辨率。

群体结构是 GWAS 的主要混杂来源。如果病例和对照来自不同祖源群体,某些 SNP 频率差异可能反映祖源差异,而不是疾病原因。主成分校正、线性混合模型、亲缘关系矩阵和严格样本 QC 都是控制群体结构的重要方法。

LD 本身也是生物学历史的记录。重组率低、选择扫荡、瓶颈、自交、近交和群体扩张都会改变 LD。自交植物的 LD 往往更长,定位分辨率可能较低,但固定纯合材料便于重复表型;异交物种 LD 衰减快,定位可以更细,但需要更高标记密度和样本量。读 GWAS 时要把 LD 看成群体历史的一部分,而不是一个纯统计麻烦。

11.3标准分析流程

GWAS 通常包括表型 QC、基因型 QC、缺失率过滤、MAF 过滤、Hardy-Weinberg equilibrium 检查、亲缘关系检查、祖源 PCA、基因型填充、关联模型、全基因组显著性校正、QQ plot、Manhattan plot 和重复队列验证。

flowchart LR
  Pheno[表型定义] --> QC[样本和变异 QC]
  Geno[基因型数据] --> QC
  QC --> PCA[群体结构/亲缘关系]
  PCA --> Model[关联模型]
  Model --> Loci[显著位点]
  Loci --> Fine[精细定位和功能注释]

11.4从关联位点到候选基因

显著位点附近最近的基因不一定是因果基因。许多 GWAS 信号位于非编码调控区域,可能通过远端增强子影响目标基因。候选基因推断常需要结合 eQTL、染色质可及性、染色质互作、保守性、细胞类型特异表达、精细定位和功能实验。

多基因性状通常由大量小效应变异共同影响。单个位点解释的表型方差可能很小,但多基因风险评分(PRS)可以聚合许多位点进行风险预测。PRS 的可迁移性受祖源和队列差异影响很大。

从位点到机制可以按一条证据阶梯走:关联峰定位到 LD block;fine mapping 缩小 credible set;功能注释判断变异是否落在编码区、启动子、增强子、剪接位点或保守元件;eQTL、ATAC、甲基化或 Hi-C 提供目标基因线索;突变体、互补、编辑或近等基因系验证因果。对植物来说,最漂亮的链条通常是 GWAS peak → 候选变异 → 等位基因表达或功能差异 → CRISPR/转基因/互补 → 环境或病原条件下表型复现。

11.5常见误区

第一,把关联 SNP 当作因果突变。第二,把最近基因当作因果基因。第三,忽视群体结构和表型定义质量。第四,用一个祖源群体训练的 PRS 直接推广到另一个祖源群体。第五,只看 p 值,不看效应大小、频率和复现。

关键问题

GWAS 命中后最重要的问题不是“这个 SNP 显著吗”,而是“它通过哪个变异、哪个细胞类型、哪个调控机制影响表型”。

11.6CNS / 高影响案例深读:植物 GWAS 如何从关联走向候选机制

我选的案例。 Atwell et al. 2010, Nature 是 Arabidopsis GWAS 经典;Huang et al. 2012, Nature 是水稻群体基因组与驯化经典。前者最适合学习“植物自然群体里如何做 GWAS”,后者适合学习“GWAS/群体变异如何回答驯化与选择”。

科研逻辑图。

flowchart LR
  Q[真实问题: 自然变异中哪些 loci 影响性状] --> P[设计: 多 accessions + 精确表型]
  G[全基因组 SNP/SV] --> M[混合模型: SNP effect + kinship/structure]
  P --> M
  M --> L[association peaks]
  L --> F[fine mapping / LD / annotation]
  F --> C[候选基因/候选变异]
  C --> V[突变体 / NIL / transgenic / expression evidence]

为什么必须做 GWAS/群体基因组。 当问题是“自然变异中哪些等位基因塑造性状”,转录组只能给状态,不能给遗传原因。GWAS 直接利用自然群体中的 recombination history 和 LD,把 phenotype variation 映射到 genotype variation。植物尤其适合,因为自交、地方适应、驯化和广泛自然 accessions 提供了丰富的遗传结构。

原理如何支撑结论。 Atwell 对 107 个 Arabidopsis 表型做 genome-wide association,把每个 SNP 作为 fixed effect,同时面对两个核心统计问题:LD 决定定位分辨率,population structure 决定假阳性风险。它的教育价值在于:很多性状可以找到接近已知生物学基因的峰,但许多峰也受样本量、群体结构和小效应限制。Huang 的水稻研究进一步用大规模 SNP 图谱、群体分化和选择扫荡,把关联位点放回驯化历史。

从实际科研逻辑怎么读。 GWAS 论文先看 phenotype quality。表型噪音大,模型再高级也只会得到弱信号。其次看群体结构:Arabidopsis 和水稻都有强地理/祖源结构,若结构和表型共同变化,普通线性模型会把祖源差异误报成性状位点。Atwell 的意义在于它把 mixed model 和自然 accessions 的植物 GWAS 推成范式;Huang 的意义在于用群体变异和选择信号把性状关联放进驯化历史。

关键结果如何支撑生物学声明。 Manhattan peak 只支持“某区域与表型关联”。如果 peak 附近有已知通路基因,支持候选基因;如果该区域还显示 selection sweep,支持驯化相关;如果 allele effect 在独立群体复现,支持稳健性。只有当突变体、近等基因系或转基因改变表型时,才真正从 association 进入 causation。对植物 PI 来说,最实用的读法是把 GWAS peak 当作“候选机制入口”,不是最终答案。

结论边界。 GWAS peak 不是因果突变,最近基因不是因果基因;植物强群体结构和环境适应会制造假阳性;多倍体或高度自交物种还会让模型更复杂。强结论需要 fine mapping、候选基因表达、突变体、互补实验或 near-isogenic lines。今天重做应加入 pangenome graph、SV、环境 GWAS、multi-omics QTL 和混合模型/regenie 类算法。

参考。 Atwell et al. 2010. Nature. https://www.nature.com/articles/nature08800;Huang et al. 2012. Nature. https://www.nature.com/articles/nature11532