Part 5 · 多组学整合

多组学整合与研究路线图¶

整合的目标不是把数据堆在一起，而是让机制链条更清楚。

本章学习导向：多组学整合一般为了解决什么问题？

常见问题。 多组学整合用来回答“多个生物层级如何共同导致表型”。它适合解释遗传风险、细胞状态、空间微环境、宿主-微生物互作、药物反应和胁迫适应，但不应该只是把多张热图拼在一起。

一般分析思路。 先定义核心机制问题和主组学层，再让其它组学承担解释或验证角色；各层先独立 QC 和建模，再在通路、细胞类型、调控元件、时间顺序、空间位置或因果中介层面整合。

为什么这样分析。 不同组学的数据尺度、噪音、缺失值和时间响应不同。过早把矩阵拼接容易得到统计结构但失去生物学解释；先让每层回答自己的问题，再连接证据链，更容易排除替代解释。

生物学主线。 好的整合要形成方向性假设：遗传变异改变调控元件，调控元件改变表达，表达改变蛋白/代谢/细胞状态，最终影响表型。每一段都需要独立证据和验证边界。

零基础生物学底座：为什么需要多组学？

一个生命现象通常不是单层变化造成的。DNA 提供遗传背景，染色质和甲基化决定哪些区域容易被读取，RNA 反映表达状态，蛋白执行功能，代谢物反映生理输出，细胞位置和微生物环境又会改变这些层之间的关系。

多组学不是为了显得数据多，而是为了把一条机制链拆清楚。例如一个抗病表型可能来自遗传变异，先改变某个 enhancer 的开放程度，再改变免疫基因表达，随后改变蛋白活性和防御代谢物积累，最后影响病斑大小。每一层都是证据，但没有哪一层单独等于完整机制。

14.1整合前先定义问题¶

多组学整合失败的常见原因，是先测很多数据，再试图寻找一个故事。真正的整合应该从问题出发：想解释遗传风险、细胞状态、空间微环境、宿主-微生物互作，还是药物反应？不同问题需要不同数据层。

例如要解释 GWAS 位点，优先整合 ATAC、eQTL、单细胞表达和功能注释；要解释肿瘤免疫微环境，优先整合 scRNA、TCR、空间转录组和蛋白标记；要解释代谢性疾病，可能需要宿主转录组、微生物组、代谢组和饮食信息。

14.2早期、中期和晚期整合¶

早期整合把不同组学特征合并成一个大矩阵，适合预测模型，但容易受尺度和缺失值影响。中期整合在潜变量、网络或因子层面寻找共同结构，例如多组学因子分析。晚期整合先分别分析各组学，再在通路、候选基因或机制层面汇总，解释性强，适合生物学研究。

整合方式	思路	优势	风险
早期整合	特征直接拼接	适合预测	尺度、缺失和过拟合
中期整合	共享潜变量/网络	能发现共同结构	模型假设复杂
晚期整合	各自分析后汇总	解释清楚	可能错过跨层弱信号

14.3常见整合场景¶

scRNA + scATAC 可以连接细胞状态和调控元件。scRNA + TCR/BCR 可以把克隆扩增和细胞功能状态连接起来。scRNA + 空间转录组可以把细胞类型放回组织结构。GWAS + eQTL + ATAC 可以从遗传位点推断候选调控元件和靶基因。微生物组 + 代谢组 + 宿主转录组可以提出宿主-微生物-代谢物互作模型。

这些整合场景的共同点是：每一层提供不同证据，而不是重复同一个结论。真正有价值的整合会排除替代解释。例如表达升高到底来自细胞比例变化、调控增强、遗传效应还是微环境刺激，需要不同组学层共同约束。

14.4因果链条和验证¶

多组学可以提出因果链条，但不能自动证明因果。一个强机制链条通常包括时间顺序、空间定位、遗传或实验扰动、分子中介和功能表型。例如“风险 SNP 打开 T 细胞 enhancer，增强某基因表达，促进炎症因子释放，增加疾病风险”，每一段都需要证据。

flowchart LR
  Variant[遗传变异] --> Enhancer[调控元件开放]
  Enhancer --> Gene[目标基因表达]
  Gene --> CellState[细胞状态改变]
  CellState --> Phenotype[疾病/性状]
  Perturb[CRISPR/药物/模型验证] -.验证.-> Gene
  Perturb -.验证.-> Phenotype

14.5从学习到项目设计¶

设计一个多组学项目时，可以按下面路线走：

写出一句核心问题，而不是技术清单。
判断主要变化发生在遗传、表观、转录、蛋白、代谢、空间还是微生态层。
选择一个主组学作为发现层，一个或两个组学作为解释层。
在设计阶段平衡批次和样本量。
预先定义主要比较、QC 标准和验证策略。
分析时先各层独立成立，再做跨层整合。
最后用功能实验或独立队列验证关键链条。

认知升级

多组学整合的高级目标，是把“某层发生了变化”推进到“这些层按某种机制顺序共同导致了表型”。

14.6CNS / 高影响案例深读：iPOP 如何把多组学变成纵向机制链¶

我选的案例。 Chen et al. 2012, Cell，Personal omics profiling reveals dynamic molecular and medical phenotypes。这篇 iPOP 研究不是完美设计，但教育价值很高：它把 genome、transcriptome、proteome、metabolome 和 clinical phenotype 放进同一个人的纵向时间轴。

科研逻辑图。

flowchart LR
  Q[真实问题: 分子层变化如何随时间走向表型] --> G[Genome: 静态风险背景]
  Q --> T[Time-series sampling]
  T --> R[RNA/protein/metabolite dynamic layers]
  R --> C[Clinical phenotype anchor]
  G --> H[个体机制假设]
  R --> H
  C --> H
  H --> V[cohort validation / perturbation / causal model]

为什么必须做多组学。 单层数据通常只能看到一个投影。基因组给风险背景，转录组给表达状态，蛋白质组给执行层，代谢组给小分子状态，临床指标给表型锚点。真正的问题不是“哪些组学显著”，而是这些层在时间上是否形成可辩护的机制链条。

原理如何支撑结论。 iPOP 的关键设计是 repeated measures：同一个人在 14 个月内多次采样。这样基因组是相对静态背景，RNA/protein/metabolite 是动态层，临床指标是 phenotype anchor。感染事件和血糖变化提供外部扰动，使作者能观察分子层变化是否随事件同步，而不是只做横截面相关。

从实际科研逻辑怎么读。 多组学论文先看有没有主问题。若只是 RNA、蛋白、代谢各做一张 heatmap，再找共同 pathway，这通常是堆数据。iPOP 的关键是纵向：同一个人反复采样，感染和血糖变化成为自然扰动。这样可以问某些分子变化是否先于、伴随或滞后于临床指标。实际项目中，多组学最有价值的不是“层数多”，而是每一层负责排除一个替代解释。

关键结果如何支撑生物学声明。 genome 层提供不随时间变的风险背景；transcriptome/proteome 层显示免疫和代谢通路响应；metabolome 和 clinical markers 把分子变化锚定到生理状态。如果这些层在时间上同步或有先后关系，就支持“机制链条假设”。但 iPOP 不能从单个个体推出普遍规律，它更像 proof-of-concept：告诉我们如何设计纵向多组学，而不是给出最终因果模型。对植物胁迫项目，可用同样逻辑：基因型是背景，时间序列胁迫是扰动，RNA/ATAC/代谢是动态层，生长/病斑/产量是表型锚点。

结论边界。 iPOP 最大弱点是样本量极小，许多发现是个人级假设而不是普遍规律；多时间点不等于因果，未观测生活方式和环境变量仍可能驱动变化。今天重做需要 cohort-level longitudinal design、预注册主要终点、扰动或干预、贝叶斯动态模型、batch-balanced acquisition 和可复现的验证队列。对植物项目，可把基因型、时间序列胁迫、RNA/ATAC/代谢、表型成像和恢复期采样串起来，形成比单点多组学更强的机制设计。

参考。 Chen et al. 2012. Cell. https://doi.org/10.1016/j.cell.2012.02.009