本章目录¶
- 从分子到 reads
- FASTQ、barcode 和 UMI
- 比对、定量与矩阵
- 常见 QC 指标
- 质量控制的判断逻辑
3.1从分子到 reads¶
绝大多数测序组学都经历类似过程:提取分子、片段化或捕获目标区域、接头连接、PCR 扩增、上机测序、生成 reads、再把 reads 映射回基因组、转录组或参考数据库。不同组学的区别在于“被捕获的分子”不同:RNA-seq 捕获 RNA 反转录后的 cDNA,ATAC-seq 捕获开放染色质片段,甲基化测序捕获经亚硫酸氢盐处理后的 DNA,微生物组可能捕获 16S 扩增片段或全部宏基因组 DNA。
reads 不是原始生命现象,而是实验流程留下的数字痕迹。任何一步偏差都会在 reads 中留下痕迹,例如 RNA 降解导致 3' 偏倚,PCR 过度扩增导致重复率升高,细胞破裂导致单细胞环境 RNA 增加。
3.2FASTQ、barcode 和 UMI¶
FASTQ 文件包含 reads 序列和每个碱基的质量分数。质量分数通常用 Phred score 表示,Q30 大致对应 0.1% 的碱基错误概率。单细胞和免疫组库数据还会包含 barcode:细胞 barcode 标记 reads 来自哪个细胞,样本 barcode 标记 reads 来自哪个样本。
UMI(Unique Molecular Identifier)是随机短序列,用来标记原始分子。它的核心作用是区分“真实的多个分子”和“同一个分子被 PCR 扩增出的多个拷贝”。有 UMI 的计数更接近分子数,没有 UMI 的计数更容易受 PCR 扩增偏好影响。
| 元素 | 含义 | 常见用途 |
|---|---|---|
| read sequence | 测到的碱基序列 | 比对和定量 |
| quality score | 每个碱基置信度 | 过滤低质量 reads |
| sample barcode | 样本标签 | 多样本混合测序 |
| cell barcode | 细胞标签 | 单细胞归属 |
| UMI | 原始分子标签 | 去 PCR 重复 |
3.3比对、定量与矩阵¶
测序数据分析的核心转换,是从 reads 到矩阵。RNA-seq 会得到“样本 × 基因”的表达矩阵;单细胞会得到“细胞 × 基因”的稀疏矩阵;ATAC-seq 会得到“样本或细胞 × peaks”的可及性矩阵;微生物组会得到“样本 × taxa/功能”的丰度矩阵。
矩阵看起来整齐,但每一个数都来自一串假设:参考基因组是否完整,基因注释是否正确,多重比对如何处理,低丰度特征是否保留,归一化是否合适。这也是为什么同一批 FASTQ 用不同流程分析,可能产生不同结论。
3.4常见 QC 指标¶
QC 不是机械地按阈值删除数据,而是判断异常是否会影响结论。常见指标包括 reads 总数、比对率、重复率、GC 含量、片段长度分布、插入片段大小、线粒体比例、核糖体 RNA 比例、TSS enrichment、FRiP score、细胞数、基因数和样本间相关性。
不同组学有不同关键指标。单细胞 RNA-seq 特别关注每个细胞的 UMI 数、检测基因数、线粒体比例和 doublet;ATAC-seq 关注片段周期性、TSS enrichment 和 FRiP;甲基化测序关注转化率;微生物组关注阴性对照污染和测序深度。
3.5质量控制的判断逻辑¶
质量控制应当先看全局,再看局部。第一步观察样本是否按生物分组聚类,还是按批次、测序深度、RIN 或中心聚类。第二步检查异常样本是否有可解释原因。第三步判断删除样本是否会破坏设计平衡。第四步记录所有过滤规则,避免根据想要的结果反复调阈值。
保存三套文件:原始矩阵、过滤后矩阵和 QC 报告。后续所有图和统计结果都应能追溯到具体过滤规则。