Part 1 · 入门框架

实验设计与批次效应¶

组学结论的上限，通常在上机测序前就已经被决定。

2.1生物重复与技术重复¶

组学实验里最常见的设计错误，是把技术重复当成生物重复。技术重复回答的是“测量过程是否稳定”，例如同一份 RNA 建库两次；生物重复回答的是“生物系统本身是否稳定”，例如来自不同个体、不同植株、不同培养批次或不同患者的样本。

差异表达、差异可及性、差异甲基化和微生物丰度比较，真正需要估计的是生物变异。如果只有一个对照样本和一个处理样本，即使每个样本测得很深，也很难支撑一般性结论。测序深度可以降低技术噪音，但不能创造不存在的生物重复。

随机化的目的不是形式上“显得科学”，而是让无法控制的因素尽量平均分布。假如所有病例样本都在周一提取 RNA，所有对照都在周五提取 RNA，那么疾病效应和操作日期完全混在一起，后续算法很难知道差异来自疾病还是日期。

配对设计适合个体差异很大的场景，例如同一患者治疗前后、同一动物左右组织、同一地块处理前后。阻断设计适合批次无法完全消除的场景，例如不同测序 lane、不同建库日期、不同中心采样。配对和阻断都要求在分析模型中显式加入相应因素。

flowchart LR
  A[样本采集] --> B[随机分配提取顺序]
  B --> C[随机分配建库批次]
  C --> D[平衡测序 lane]
  D --> E[模型中纳入批次/配对因素]

批次效应是非生物学因素造成的系统性差异。它危险的原因在于：它不是随机噪音，而是有方向、有结构的偏差。测序深度、RNA 完整性、细胞活性、组织缺血时间、试剂批号、操作者、上机 lane、环境温度都可能成为批次来源。

批次效应有两种情况。第一种是“可调整”：每个批次里都有处理和对照，批次与分组没有完全重合。第二种是“不可挽救”：所有处理组都在一个批次，对照组都在另一个批次。后者无法通过后期校正可靠解决，因为批次和生物因素在统计上不可分离。

认知升级

批次校正不是万能清洗剂。设计阶段让分组在批次中平衡，比分析阶段使用任何校正算法都重要。

组学里的“大数据”经常让人误判样本量。单细胞实验有 100,000 个细胞，不等于有 100,000 个生物重复。如果这些细胞来自 3 个患者，那么疾病差异的统计单位首先是患者，而不是细胞。空间转录组也类似，许多 spot 来自同一张切片，不能简单当成完全独立样本。

统计单位要与科学问题一致。问“某处理是否改变基因表达”，单位通常是样本或个体；问“某细胞类型内部是否出现状态分化”，单位可以是细胞，但仍要考虑样本来源；问“某克隆是否扩增”，单位可能是克隆型、样本或个体，取决于推断目标。

开始实验前，至少完成下面检查：