Part 2 · 分子表型组学

转录组 RNA-seq¶

从表达矩阵理解细胞和组织的转录状态。

本章学习导向：RNA-seq 一般为了解决什么问题？

常见问题。 RNA-seq 最常用来回答“某个处理、基因型、组织、时间点或疾病状态下，细胞的转录输出发生了什么变化”。它适合做状态扫描、通路假设、细胞组成线索、剪接或等位基因表达线索，但不能单独证明蛋白活性、代谢通量或因果调控。

一般分析思路。 先确认样本设计和 QC，再从 raw counts 建立 gene-by-sample 矩阵，做归一化、离散度估计和差异表达模型；随后看 PCA/样本关系、DEG、通路富集、剪接/isoform 或网络模块，最后挑关键基因和通路做独立验证。

为什么这样分析。 RNA-seq reads 是 RNA 分子的抽样结果，同时受 library size、生物重复变异、RNA 长度、组成偏差和细胞混合影响。先建模 count 噪音，再解释生物学差异，是为了避免把测序深度、批次或低表达随机波动当成真实调控。

生物学主线。 RNA abundance 是转录、剪接、加帽、加尾、输出、稳定性和降解共同作用后的净结果。读 RNA-seq 时要问：变化来自转录增强、RNA processing、细胞比例变化，还是 RNA 半衰期改变？

零基础生物学底座：RNA 到底是什么？

DNA 像细胞里的长期说明书，RNA 像从说明书上临时抄出来、准备执行的工作单。一个基因要发挥作用，通常先由 RNA polymerase 把 DNA 上的信息抄成 pre-mRNA，再经过加帽、剪接、加 poly(A) 尾，变成成熟 mRNA，最后被核糖体翻译成蛋白。

所以 RNA-seq 看到的不是“基因是否存在”，而是“某一时刻细胞正在抄哪些工作单、抄了多少、这些工作单是否被加工和保留下来”。如果免疫基因 RNA 变多，可能说明细胞进入防御状态；如果光合作用相关 RNA 下降，可能说明叶绿体或叶肉细胞状态改变。但 RNA 只是功能链条的中间层，不能直接等同于蛋白活性。

4.1RNA-seq 测量的对象¶

RNA-seq 测量的是 RNA 分子的相对丰度。它可以回答“某条件下哪些基因表达更高或更低”，也可以分析可变剪接、融合转录本、等位基因特异表达和非编码 RNA。但 RNA-seq 不能直接告诉我们蛋白水平、蛋白活性或代谢通量。

bulk RNA-seq 的样本通常是组织、细胞群或培养物。它的优势是稳健、成本相对可控、统计模型成熟；弱点是会把不同细胞类型的表达混合在一起。一个基因在肿瘤组织中升高，可能因为肿瘤细胞表达升高，也可能因为免疫细胞比例增加。

生物学补充：RNA abundance 是合成和降解的净结果¶

一个基因的 RNA 变多，不只可能因为转录更强，也可能因为 mRNA 更稳定、剪接更高效、polyA 位点改变、RNA export 改变或降解通路变弱。RNA-seq 的 count 是这些过程合并后的稳态结果。若想区分 transcriptional regulation 和 post-transcriptional regulation，需要 nascent RNA、PRO-seq/GRO-seq、4sU labeling、long-read RNA-seq、Ribo-seq 或 RNA stability assay 等额外证据。

这点在生物学解释中很关键。病原刺激后某个免疫基因迅速升高，可能来自转录因子打开 promoter/enhancer；发育过程中某些 transcript isoform 改变，可能来自 splicing factor 或 APA 调控；植物胁迫中大量 RNA 下降，也可能是全局翻译抑制、RNA decay 或细胞组成变化。把所有 RNA 变化都解释为“上游转录因子调控”，会漏掉 RNA 生命周期本身。

Pre-mRNA processing into mature mRNA with splicing, 5 prime cap, and poly(A) tail — **图 4.1 · pre-mRNA 到成熟 mRNA。** 这张图把 intron removal、5' cap 和 poly(A) tail 放在同一张分子示意里，适合提醒读者：RNA-seq 的 reads 来自 RNA 生命周期的一个结果层，而不是单纯的“转录强度”。来源：Nastypatty / Manudouz, Wikimedia Commons, CC BY-SA 4.0。

4.2建库策略与数据结构¶

常见建库策略有 poly(A) 富集和 rRNA 去除。poly(A) 富集适合成熟 mRNA，成本低、背景少，但不适合降解样本和许多非 poly(A) RNA。rRNA 去除覆盖面更广，适合 FFPE、细菌、病毒或长非编码 RNA，但背景和成本可能更高。

定量层面可以使用 gene-level counts、transcript-level abundance 或 splice junction counts。差异表达通常使用 raw counts 输入统计模型，再由模型处理 library size 和离散度；TPM/FPKM 适合样本内表达结构展示，但不应直接作为差异分析输入。

指标	适合用途	注意点
raw counts	差异表达模型	需要归一化和离散度估计
TPM	比较同一样本内基因贡献	不适合直接跨样本做统计检验
normalized counts	可视化和聚类	取决于归一化方法
junction counts	剪接分析	需要足够 read depth

4.3差异表达分析¶

差异表达分析的核心不是简单比较均值，而是在计数数据的噪音结构下估计组间差异。RNA-seq counts 通常用负二项分布建模，因为生物重复之间的变异大于泊松抽样噪音。常用思想包括 library size normalization、离散度估计、广义线性模型和多重检验校正。

一个标准差异分析结果至少包含 log2 fold change、统计量、p 值和 adjusted p 值。log2 fold change 表示效应大小，adjusted p 值控制多重检验下的假阳性。解释时不能只看显著性，也要看表达量、效应大小、方向是否符合生物学预期。

4.4通路与网络解释¶

单个基因差异常常不稳定，通路层面的解释更接近生物过程。富集分析通常分为两类：一类先选出差异基因，再问这些基因是否富集于某些 GO、KEGG、Reactome 或 Hallmark gene sets；另一类使用全基因排序，例如 GSEA，避免人为阈值造成信息损失。

通路解释要警惕数据库偏倚。热门通路注释更完整，更容易被富集；一个基因可以属于多个通路，导致结果看起来丰富但并不独立。好的解释应当回到具体基因、细胞类型和实验背景，而不是停留在“炎症通路显著”这种宽泛表述。

4.5常见误区¶

第一，差异表达不等于调控因果。转录因子表达升高，不代表它驱动了全部下游变化。第二，RNA 水平不等于蛋白水平。翻译效率、蛋白降解和修饰都可能改变最终功能。第三，bulk RNA-seq 的差异可能由细胞组成变化驱动。第四，批次校正不能修复完全混杂的设计。

认知升级

RNA-seq 最适合做“状态扫描”和“假设生成”。如果要证明某基因是驱动因子，通常还需要扰动实验、蛋白或功能验证。

4.6CNS / 高影响案例深读：RNA-seq 如何读出表达变异机制¶

我选的案例。 Pickrell et al. 2010, Nature，题目是 Understanding mechanisms underlying human gene expression variation with RNA sequencing。这篇比单纯“RNA-seq 能测表达”的方法论文更适合放在这里：它展示 RNA-seq 为什么能同时回答 expression level、splicing、allele-specific expression 三类问题。

科研逻辑图。

flowchart LR
  Q[真实问题: 人群表达差异从哪来] --> D[设计: 同一批个体测 genotype + RNA-seq]
  D --> R1[exon/gene reads: 表达量]
  D --> R2[junction reads: 剪接结构]
  D --> R3[heterozygous SNP reads: allele-specific expression]
  R1 --> M1[eQTL: 变异影响总表达]
  R2 --> M2[sQTL: 变异影响 isoform 使用]
  R3 --> M3[cis 调控: 两个等位基因在同一细胞环境内不等量输出]
  M1 --> C[机制假设: 调控变异改变 RNA 输出]
  M2 --> C
  M3 --> C
  C --> V[下一步: reporter / CRISPR / long-read / tissue validation]

为什么必须做 RNA-seq。 这篇论文之前，eQTL 主要依赖 microarray。array 可以比较探针强度，但对未注释转录本、外显子使用、等位基因特异表达和剪接位点附近变异的分辨率有限。Pickrell 等人测了 69 个 HapMap 尼日利亚个体的 lymphoblastoid cell lines，把 RNA reads 与已知基因型放在一起问：自然人群中的表达差异，到底是 gene-level abundance 变了，还是 transcript structure 和 allele-specific output 变了？

原理如何支撑结论。 RNA-seq 的核心不是“把 RNA 变成 reads”这么简单，而是 reads 带有基因组坐标。落在 exon 上的 reads 支持表达量，跨 splice junction 的 reads 支持剪接结构，覆盖 heterozygous SNP 的 reads 支持 allele-specific expression。于是同一套数据能把 eQTL 拆成三种机制证据：总表达差异、isoform usage 差异和 cis 调控导致的等位基因偏倚。

从实际科研逻辑怎么读。 如果你在自己的材料里看到两个品种或处理组表达不同，第一反应不该是“做富集”。要先拆变量：差异来自启动子/增强子调控、RNA processing、细胞组成，还是 RNA 稳定性？Pickrell 的设计强在同一个个体同时有 genotype 和 RNA，因此能把“表达差异”拉回遗传解释。ASE 尤其有力，因为两个等位基因处在同一个 nucleus、同一批 trans factors 里；如果一个 allele consistently 更高，cis 调控的证据比跨个体表达相关更强。

关键结果如何支撑生物学声明。 gene-level eQTL 说明变异和表达量相关；junction 或 exon usage 信号说明变异可能改变剪接；ASE 说明同一细胞环境内两个 haplotype 的 RNA 输出不等。三者合在一起，论文的声明不是“我们发现很多差异表达基因”，而是“人群表达变异可以被分解成若干可测的分子机制”。这就是 RNA-seq 相对 array 的范式升级：它读的不是一个探针强度，而是转录本在基因组上的结构化证据。

结论边界。 它用的是 LCL 细胞系，不代表所有组织；样本量对 trans-eQTL 和小效应剪接事件有限；短读长对复杂 isoform 的解析仍不完整。今天重做会加入 long-read RNA-seq、single-cell eQTL、nascent RNA 和 ATAC/Hi-C 共定位，进一步区分 promoter、enhancer 和 RNA processing 层的因果贡献。

参考。 Pickrell et al. 2010. Nature. https://www.nature.com/articles/nature08872；ENCODE Project Consortium. 2012. Nature. https://www.nature.com/articles/nature11247