本章目录¶
- 生物重复与技术重复
- 随机化、配对和阻断
- 批次效应为什么危险
- 样本量与统计单位
- 设计检查清单
2.1生物重复与技术重复¶
组学实验里最常见的设计错误,是把技术重复当成生物重复。技术重复回答的是“测量过程是否稳定”,例如同一份 RNA 建库两次;生物重复回答的是“生物系统本身是否稳定”,例如来自不同个体、不同植株、不同培养批次或不同患者的样本。
差异表达、差异可及性、差异甲基化和微生物丰度比较,真正需要估计的是生物变异。如果只有一个对照样本和一个处理样本,即使每个样本测得很深,也很难支撑一般性结论。测序深度可以降低技术噪音,但不能创造不存在的生物重复。
| 重复类型 | 主要作用 | 能否支持组间推断 |
|---|---|---|
| 建库重复 | 检查建库稳定性 | 不能替代生物重复 |
| 测序重复 | 检查测序随机性 | 通常可合并 |
| 细胞重复 | 增加细胞数 | 单细胞中不能替代个体重复 |
| 个体/样本重复 | 估计生物变异 | 组间推断的核心 |
2.2随机化、配对和阻断¶
随机化的目的不是形式上“显得科学”,而是让无法控制的因素尽量平均分布。假如所有病例样本都在周一提取 RNA,所有对照都在周五提取 RNA,那么疾病效应和操作日期完全混在一起,后续算法很难知道差异来自疾病还是日期。
配对设计适合个体差异很大的场景,例如同一患者治疗前后、同一动物左右组织、同一地块处理前后。阻断设计适合批次无法完全消除的场景,例如不同测序 lane、不同建库日期、不同中心采样。配对和阻断都要求在分析模型中显式加入相应因素。
flowchart LR
A[样本采集] --> B[随机分配提取顺序]
B --> C[随机分配建库批次]
C --> D[平衡测序 lane]
D --> E[模型中纳入批次/配对因素]
2.3批次效应为什么危险¶
批次效应是非生物学因素造成的系统性差异。它危险的原因在于:它不是随机噪音,而是有方向、有结构的偏差。测序深度、RNA 完整性、细胞活性、组织缺血时间、试剂批号、操作者、上机 lane、环境温度都可能成为批次来源。
批次效应有两种情况。第一种是“可调整”:每个批次里都有处理和对照,批次与分组没有完全重合。第二种是“不可挽救”:所有处理组都在一个批次,对照组都在另一个批次。后者无法通过后期校正可靠解决,因为批次和生物因素在统计上不可分离。
批次校正不是万能清洗剂。设计阶段让分组在批次中平衡,比分析阶段使用任何校正算法都重要。
2.4样本量与统计单位¶
组学里的“大数据”经常让人误判样本量。单细胞实验有 100,000 个细胞,不等于有 100,000 个生物重复。如果这些细胞来自 3 个患者,那么疾病差异的统计单位首先是患者,而不是细胞。空间转录组也类似,许多 spot 来自同一张切片,不能简单当成完全独立样本。
统计单位要与科学问题一致。问“某处理是否改变基因表达”,单位通常是样本或个体;问“某细胞类型内部是否出现状态分化”,单位可以是细胞,但仍要考虑样本来源;问“某克隆是否扩增”,单位可能是克隆型、样本或个体,取决于推断目标。
2.5设计检查清单¶
开始实验前,至少完成下面检查:
- 分组变量、主要结局和核心比较是否明确。
- 每组是否有足够生物重复。
- 关键混杂因素是否记录,例如年龄、性别、组织部位、处理时间、采样中心。
- 分组是否在提取、建库和测序批次中平衡。
- 是否有阴性对照、阳性对照或 spike-in。
- 是否预先定义排除标准,例如低 RIN、低细胞活性、低 reads 数。
- 是否留出独立验证策略。