跳转至
05
Part 2 · 分子表型组学

单细胞转录组

把组织平均表达拆解为细胞类型、细胞状态和细胞连续谱。

本章学习导向:单细胞转录组一般为了解决什么问题?

常见问题。 单细胞转录组用来把组织平均值拆开:组织里有哪些细胞类型,比例是否变化,某类细胞是否进入激活、耗竭、应激、增殖或分化状态,是否存在稀有细胞或连续发育轨迹。

一般分析思路。 先做细胞和基因 QC、doublet/ambient RNA 处理,再归一化、高变基因选择、降维、聚类和注释;之后按细胞类型比较组成和状态,疾病/处理差异最好用 donor-level pseudobulk,而不是把每个细胞当独立重复。

为什么这样分析。 单细胞矩阵很稀疏,零值混合了真零、捕获失败和瞬时表达关闭;降维图只是可视化,不是生物学结论。先识别可靠细胞群,再回到样本层面比较,才能避免把技术噪音或伪重复当成发现。

生物学主线。 核心是区分 cell type、cell state 和 cell fate。细胞类型来自发育来源和稳定调控网络;细胞状态来自刺激、周期、代谢和微环境;命运需要时间、谱系或扰动证据支持。

零基础生物学底座:为什么同一个组织里会有很多种细胞?

多细胞生物不是由一堆完全相同的细胞组成的。皮肤、血液、根尖、叶片或肿瘤里,细胞有分工:有的运输物质,有的感知环境,有的分裂,有的防御,有的分泌信号。它们拥有几乎相同的 DNA,但打开的基因组合不同,所以表现出不同身份。

单细胞转录组就是把组织拆成一个个细胞,分别看每个细胞正在表达哪些 RNA。这样可以分辨“组织平均表达升高”到底是因为某种细胞变多了,还是同一种细胞进入了新的状态。对初学者来说,最重要的不是 UMAP 颜色,而是理解每个点背后是一类细胞身份或状态的证据。

5.1单细胞解决了什么问题

bulk RNA-seq 给出的是平均表达。单细胞 RNA-seq 的核心价值,是把平均信号拆成细胞级别的表达矩阵,从而识别细胞类型组成、稀有细胞群、连续分化轨迹和同一细胞类型内部的状态变化。

单细胞最适合的问题包括:组织里有哪些细胞群;疾病中哪类细胞比例变化;某类细胞是否进入激活、耗竭、增殖或应激状态;发育过程是否存在中间状态;药物主要作用于哪些细胞。它不适合单独回答蛋白活性、空间位置和长期谱系因果,除非结合 CITE-seq、空间组学或谱系追踪。

生物学补充:细胞类型、状态和命运不是一回事

单细胞数据最重要的生物学训练,是把 cell type、cell state 和 cell fate 分开。cell type 是相对稳定的身份,来自发育来源、核心转录因子网络和长期染色质状态,例如 T 细胞、成纤维细胞、内皮细胞、植物保卫细胞。cell state 是同一类型细胞在刺激、周期、代谢、应激或空间微环境下的短期状态,例如干扰素响应、缺氧、增殖、热激、病原诱导免疫。cell fate 是未来走向,常见于发育和再生问题:一个细胞现在表达某些前体标志,并不等于它最终一定分化成某一类细胞。

这一区分会直接改变解读方式。若一个 cluster 表达大量核糖体、热休克和 immediate early genes,它可能是解离诱导状态,而不是新细胞类型。若一群细胞高表达 MCM、TOP2A、PCNA 等细胞周期基因,它们在 UMAP 上单独成团,可能只是处于 S/G2M 期。若植物根尖细胞沿分生区到伸长区呈连续变化,轨迹轴更像发育时间和空间位置叠加,而不是离散类型。

单细胞还揭示了一个 bulk 难以看见的事实:基因表达不是连续平滑的水龙头,而常常呈现 transcriptional bursting。同一个细胞类型中,某个基因在一部分细胞里短暂高表达,另一部分细胞里接近零,可能来自 promoter 开关、增强子接触概率、染色质开放时间窗或 mRNA 半衰期差异。因此,单细胞矩阵里的零值既可能是真零,也可能是捕获失败,还可能是生物学上的瞬时关闭。读单细胞表达时,要把“这个细胞没有检测到该 RNA”和“这个细胞不具备该功能”小心分开。

Single-cell RNA-seq workflow from cells to sequencing and gene expression matrix

图 5.1 · single-cell RNA-seq workflow。 这类图比纯流程文字更直观:单细胞实验的核心是把每个细胞的 RNA 通过 barcode 和测序转换为 cell-by-gene matrix,之后的聚类、注释和状态解释都建立在这个矩阵上。来源:Eelchi, Wikimedia Commons, CC BY-SA 4.0。

5.2液滴法、板式法与单核 RNA-seq

液滴法把单个细胞和带 barcode 的微珠封装进油滴,通量高、成本低,是当前最常用路线。板式法把细胞分到孔板中,灵敏度较高,适合少量细胞和全长转录本分析,但通量较低。单核 RNA-seq 从细胞核提取 RNA,适合冷冻组织、难以解离组织和脑组织,但核内转录本比例更高,表达谱与全细胞不同。

单细胞实验最大的前处理风险是解离偏差。不同细胞类型对酶消化、机械剪切和温度的耐受不同,脆弱细胞可能在上机前已经丢失。解离还会诱导应激基因表达,因此看到热休克、即时早期基因升高时,要考虑技术诱导。

5.3标准分析流程

单细胞分析通常包括:reads 处理、细胞识别、QC、归一化、高变基因选择、降维、聚类、注释、差异分析和功能解释。降维图如 UMAP 或 t-SNE 是可视化工具,不是直接的统计证据。两个细胞群在 UMAP 上距离远,不一定代表真实生物距离也远。

flowchart LR
  FASTQ --> Matrix[细胞×基因矩阵]
  Matrix --> QC[过滤低质量细胞和 doublet]
  QC --> Norm[归一化/整合]
  Norm --> Dim[降维]
  Dim --> Cluster[聚类]
  Cluster --> Annot[细胞注释]
  Annot --> Biology[差异、轨迹、通讯和功能解释]

5.4细胞注释与状态解释

细胞注释通常依赖 marker genes、参考图谱、自动注释工具和专家知识。最稳健的注释不是看一个 marker,而是看一组 marker 的组合。例如 T 细胞不能只看 CD3D,还要结合 CD3E、TRAC、CD4、CD8A、CCR7、NKG7 等。细胞状态则更依赖功能基因集,例如增殖、干扰素响应、细胞毒性、缺氧或炎症。

需要区分“细胞类型”和“细胞状态”。细胞类型相对稳定,例如 B 细胞、T 细胞、上皮细胞;细胞状态更动态,例如激活、耗竭、应激、迁移、分裂。把状态误标成新细胞类型,是单细胞论文里常见问题。

在植物单细胞里,marker 还要加一层组织发育知识。根毛细胞、皮层、内皮层、中柱、木质部、韧皮部和分生组织细胞的标志基因往往沿空间轴连续变化;叶片中保卫细胞、维管束、叶肉细胞还会受到叶绿体 RNA 和原生质体制备偏差影响。因此植物 scRNA-seq 的注释不能只查 marker 表,更要问这些细胞是否符合器官结构、发育梯度和已知转录因子网络。

5.5伪重复和差异分析

单细胞差异分析最容易犯的错误,是把每个细胞当作独立重复,而忽略它们来自同一个个体。对于疾病与对照比较,个体才是关键统计单位。稳健做法通常是 pseudo-bulk:按样本和细胞类型汇总 counts,再用 bulk RNA-seq 的差异模型分析。

关键问题

看到单细胞差异结果时,先问:每组有几个个体?差异是在个体之间复现,还是只由某一个样本贡献?分析是否按细胞类型分层?

5.6CNS / 高影响案例深读:从 Drop-seq 到细胞图谱

我选的案例。 Macosko et al. 2015, Cell 的 Drop-seq 是方法学经典;Tabula Muris Consortium 2018, Nature 是图谱型生物学应用。我把两篇放在一起读,因为前者回答“为什么单细胞突然能规模化”,后者回答“规模化之后能解决什么组织生物学问题”。

科研逻辑图。

flowchart LR
  Q[真实问题: 组织平均值掩盖了哪些细胞差异] --> S[设计: 多器官/多样本解离成单细胞]
  S --> T[技术: cell barcode + UMI]
  T --> M[细胞×基因矩阵]
  M --> C[聚类: 发现细胞群]
  C --> A[注释: marker 组合 + 参考图谱 + 专家知识]
  A --> B1[组成问题: 哪些细胞类型存在/比例变化]
  A --> B2[状态问题: 激活/分化/应激/增殖]
  B1 --> V[pseudobulk/空间/功能验证]
  B2 --> V

为什么必须做单细胞。 组织平均表达有一个根本缺陷:它把细胞比例变化和细胞内状态变化混在一起。发育、肿瘤、免疫和植物组织分区里,关键问题通常不是“这个组织的平均表达是多少”,而是“哪一类细胞变了”“稀有细胞是否出现”“同一类型细胞是否进入激活、分化或应激状态”。这些问题 bulk RNA-seq 只能间接猜。

原理如何支撑结论。 Drop-seq 把单个细胞和带 barcode 的微珠包进纳升级液滴。cell barcode 标记细胞来源,UMI 标记原始分子来源,所以测序后能构建 cell-by-gene count matrix,并部分消除 PCR 扩增偏差。Tabula Muris 利用 droplet 和 FACS/plate-based 两条路线,既获得通量,也保留较高灵敏度,用 marker gene 组合而不是单个 marker 来定义细胞群。

从实际科研逻辑怎么读。 读单细胞论文时,先不要看 UMAP 上有几个颜色。先问样本设计:每组几个 donor?组织解离是否会丢失特定细胞?注释是否靠一个 marker 硬命名?Tabula Muris 的强处在于跨器官和双平台,能区分“平台捕获偏差”和“真实组织差异”。Drop-seq 的强处在于用 barcode/UMI 把成本降到可以做 atlas 的程度,但牺牲了全长转录本和部分低丰度基因灵敏度。

关键结果如何支撑生物学声明。 聚类只说明表达相似性;marker 组合才把 cluster 翻译成 cell identity;跨器官比较同类细胞才支持“组织环境塑造细胞状态”。例如内皮细胞有共同身份程序,但不同器官的 endothelial cells 表达不同通路,这个结论来自“先定义同类细胞,再比较器官特异差异”,不是来自 UMAP 距离本身。实际项目里,如果要说疾病改变了某类细胞状态,最好按 donor 和 cell type 做 pseudobulk,而不是把几万个细胞当几万个重复。

结论边界。 细胞图谱不是细胞类型本体论的终点。解离偏差会丢掉脆弱细胞,应激会制造假状态;聚类分辨率改变会制造或合并“类型”;差异分析若把细胞当重复会产生伪重复。今天重做应把 donor 作为统计单位,加入 spatial、CITE-seq、扰动或 lineage tracing,让“细胞状态”不只停留在 marker 描述。

参考。 Macosko et al. 2015. Cell. https://doi.org/10.1016/j.cell.2015.05.002;Tabula Muris Consortium. 2018. Nature. https://www.nature.com/articles/s41586-018-0590-4

延伸深读。 [[04-scRNAseq/_papers/macosko-2015-cell-dropseq]];[[04-scRNAseq/_papers/tabula-muris-2018-nature-cell-atlas]]