跳转至
13
Part 5 · 多组学整合

蛋白质组与代谢组

越接近功能层,越接近表型,也越接近测量复杂性。

本章学习导向:蛋白质组和代谢组一般为了解决什么问题?

常见问题。 蛋白质组和代谢组用来问“系统真正执行了什么功能”。RNA 告诉你表达潜力,蛋白质组更接近执行层,磷酸化等 PTM 更接近信号活性,代谢组更接近生理状态和表型。

一般分析思路。 蛋白质组先从肽段质谱鉴定和定量推断蛋白,再分析差异蛋白、PTM、通路和复合体;代谢组先做 peak detection、alignment、归一化和注释等级判断,再分析差异 metabolite、通路、酶-底物关系和绝对/靶向验证。

为什么这样分析。 质谱信号受动态范围、离子化效率、缺失值、批次和注释不确定性影响。蛋白丰度不等于活性,代谢物丰度不等于通量,因此必须区分 abundance、PTM、localization、enzyme activity 和 isotope flux。

生物学主线。 功能层的核心是活性、位置、复合体和通量。读结果时要问:RNA 变化有没有传到蛋白?蛋白变化有没有改变活性?代谢物变化是上游输入增强,还是下游反应堵塞?

零基础生物学底座:蛋白和代谢物为什么更接近功能?

蛋白是细胞里真正执行很多工作的分子:酶催化反应,受体接收信号,转录因子调控基因,结构蛋白支撑细胞形态。RNA 变多只是说明工作单变多,蛋白是否真的变多、是否被修饰、是否在正确位置,才更接近功能执行。

代谢物是细胞化学反应的底物、产物和信号分子,例如糖、氨基酸、脂质、激素、次生代谢物。它们离表型很近,但也变化很快,受时间、组织、环境、微生物和取样方式影响。蛋白质组和代谢组让我们从“细胞想做什么”走向“细胞实际在做什么”。

13.1为什么 RNA 不够

RNA 表达提供转录状态,但许多功能由蛋白丰度、蛋白修饰、复合体形成、酶活性和代谢物浓度决定。一个激酶的 mRNA 不变,磷酸化活性可能大幅改变;一个代谢通路的基因表达升高,也不代表通量一定升高。因此蛋白质组和代谢组是理解功能表型的重要层级。

生物学补充:功能层的关键是活性、位置和通量

蛋白的功能不只由丰度决定。酶需要正确折叠、定位到正确细胞器、装配成复合体,并在合适底物、辅因子和修饰状态下工作。激酶、转录因子、受体和代谢酶尤其如此:总蛋白不变时,磷酸化、泛素化、乙酰化、氧化还原状态或配体结合都可能让活性发生巨大改变。蛋白质组如果只测 abundance,只看到了功能层的一部分;PTM 组学、互作组、亚细胞定位和酶活实验才更接近机制。

代谢物也不等于通量。某个中间产物升高,可能因为上游输入增强,也可能因为下游反应被堵住;某条代谢通路基因表达升高,不代表碳流或氮流真的经过那里。要证明通量,需要 isotope tracing、酶活、底物/产物比、细胞器定位和时间序列。植物代谢尤其要小心:次生代谢物常有组织特异性、昼夜节律和诱导性,叶片、根、种子和病斑边缘的代谢意义完全不同。

Schematic depiction of LC-MS/MS procedure

图 13.1 · LC-MS/MS procedure。 蛋白质组和代谢组不是直接“读出分子名字”,而是先经过分离、离子化、质荷比检测和碎裂谱图匹配。理解这个流程,才能理解为什么缺失值、离子抑制、注释等级和标准品验证如此重要。来源:Nanita, Wikimedia Commons, CC BY-SA 4.0。

13.2蛋白质组的测量逻辑

质谱蛋白质组通常先把蛋白酶切成肽段,再用 LC-MS/MS 测量肽段,最后推断蛋白。DDA(data-dependent acquisition)选择强信号离子碎裂,适合发现;DIA(data-independent acquisition)系统性碎裂窗口内离子,重现性更好。定量可以是 label-free,也可以使用 TMT 等标记策略。

蛋白质组的核心挑战包括动态范围大、低丰度蛋白难检测、肽段到蛋白的归属不唯一、批次效应明显和缺失值非随机。磷酸化、泛素化、乙酰化等修饰组学还需要富集步骤,解释更接近信号通路活性。

13.3代谢组的测量逻辑

代谢组测量小分子代谢物。靶向代谢组预先选择一组代谢物,定量更可靠;非靶向代谢组覆盖更广,但注释不确定性更高。常用平台包括 LC-MS、GC-MS 和 NMR。不同平台对极性、挥发性、稳定性和定量范围的适配不同。

代谢物离表型很近,但也受饮食、昼夜节律、取样时间、保存条件、药物、微生物和组织缺血时间影响。代谢组实验的样本采集和保存标准化非常关键。

13.4缺失值、批次和注释等级

蛋白质组和代谢组中的缺失值往往不是随机缺失,而是低丰度、检测限、离子抑制或峰识别失败造成。简单填补可能引入假信号。批次校正需要 QC 样本、内标、随机上机和漂移校正。

代谢物注释要区分等级。精确质量和数据库匹配只能给候选,MS/MS 谱图匹配更强,标准品确认最可靠。非靶向代谢组中“显著 feature”不等于已经明确知道化合物身份。

13.5与其他组学整合

蛋白质组可以验证 RNA 变化是否传递到功能层;磷酸化组可以提示信号通路激活;代谢组可以连接微生物、宿主通路和表型。整合时不要强求每个 RNA 都有对应蛋白,也不要期望代谢物和基因表达一一对应。更合理的是按通路、酶-底物关系和机制模型整合。

一个实用整合顺序是:先用 RNA 找到响应细胞程序,再用蛋白验证执行层是否同步,再用 PTM 或代谢物判断活性和通量,最后用表型或扰动验证机制。若 RNA 上调但蛋白不变,可能有翻译或蛋白稳定性控制;若蛋白上调但代谢物不变,可能通量由底物限制;若代谢物大变但 RNA/蛋白不变,可能来自微生物、饮食/培养基、环境输入或酶活调控。真正的多组学解释要允许这些“不一致”,因为不一致往往就是机制入口。

认知升级

蛋白质组和代谢组更接近“系统在做什么”,但也更依赖样本处理和仪器稳定性。功能层数据越有价值,前处理越不能随意。

13.6CNS / 高影响案例深读:为什么 RNA 不够

我选的案例。 蛋白质组选 Kim et al. 2014 和 Wilhelm et al. 2014 两篇 Nature human proteome draft;代谢组选 Chen et al. 2014, Nature Genetics 的 rice metabolome GWAS。这样一组刚好覆盖“蛋白是否真的被表达”和“代谢物如何连接基因型与生化表型”。

科研逻辑图。

flowchart LR
  Q[真实问题: RNA 改变是否传递到功能层] --> P[蛋白质组: peptides -> proteins]
  Q --> M[代谢组: features -> metabolites]
  P --> F1[执行层: abundance/PTM/pathway activity]
  M --> F2[小分子层: substrate/product/biochemical phenotype]
  F1 --> I[与 RNA/genotype/phenotype 整合]
  F2 --> I
  I --> V[验证: targeted MS / enzyme assay / isotope tracing / genetics]

为什么必须做蛋白质组/代谢组。 RNA 是表达潜力,蛋白和代谢物更接近功能执行。翻译效率、蛋白降解、磷酸化、复合体状态和酶活性都会让 RNA 与表型脱钩。代谢物更进一步:它们是酶反应、营养状态、微生物活动和环境扰动的综合输出,常常比 mRNA 更贴近生理状态。

原理如何支撑结论。 质谱蛋白质组把蛋白酶切成 peptides,经 LC-MS/MS 碎裂后用谱图匹配回蛋白序列。Kim/Wilhelm 的关键不是“检测很多蛋白”本身,而是把 peptides evidence 与 genome annotation、transcript evidence 对齐,问哪些 predicted coding genes 真的有蛋白层支持。代谢组则把 LC-MS/GC-MS/NMR 的 feature 与标准品或 MS2 谱图连接;Chen 的 rice mGWAS 把 metabolite abundance 当数量性状,与 SNP 做关联,寻找控制代谢自然变异的遗传位点。

从实际科研逻辑怎么读。 蛋白质组论文要先看 peptide evidence 的质量:唯一肽段、FDR、缺失值结构、动态范围、是否有批次 QC。代谢组论文要先看 annotation level:feature、putative compound、MS2 supported、standard confirmed 的结论强度不同。Chen 的 rice mGWAS 的逻辑强在把代谢物当 phenotype,而不是把代谢物只当富集输入;这样能从 SNP → metabolite → pathway → agronomic/biochemical trait 建机制链。

关键结果如何支撑生物学声明。 如果某蛋白有多个 unique peptides,且跨组织/条件定量稳定,才支持“该蛋白存在并变化”;如果某 PTM 改变但总蛋白不变,支持“活性调控而非表达调控”;如果某 metabolite 与 SNP 强关联,且候选基因编码相关酶或转运蛋白,支持“遗传变异控制代谢积累”。这类证据比 RNA 富集更接近功能,但也更依赖前处理和注释质量。植物特化代谢物尤其要小心:一个显著 LC-MS feature 不等于已经知道化合物结构。

结论边界。 蛋白组的 peptide-to-protein inference 不唯一,低丰度和膜蛋白难测,缺失值常常 MNAR;代谢组 feature 不等于已注释 metabolite,MS2 匹配也不是标准品确认。今天重做应把 DIA、深度 spectral library、PTM enrichment、isotope tracing、absolute quantification 和 genotype/phenotype integration 放到同一设计里,而不是只做 RNA 与 protein/metabolite 的相关热图。

参考。 Kim et al. 2014. Nature. https://www.nature.com/articles/nature13302;Wilhelm et al. 2014. Nature. https://www.nature.com/articles/nature13319;Chen et al. 2014. Nature Genetics. https://www.nature.com/articles/ng.3007;Dührkop et al. 2019. Nature Methods. https://www.nature.com/articles/s41592-019-0344-8