跳转至
03
Part 1 · 入门框架

测序基础与数据质量

理解 FASTQ、比对、计数和 QC,是学习任何测序组学的共同入口。

3.1从分子到 reads

绝大多数测序组学都经历类似过程:提取分子、片段化或捕获目标区域、接头连接、PCR 扩增、上机测序、生成 reads、再把 reads 映射回基因组、转录组或参考数据库。不同组学的区别在于“被捕获的分子”不同:RNA-seq 捕获 RNA 反转录后的 cDNA,ATAC-seq 捕获开放染色质片段,甲基化测序捕获经亚硫酸氢盐处理后的 DNA,微生物组可能捕获 16S 扩增片段或全部宏基因组 DNA。

reads 不是原始生命现象,而是实验流程留下的数字痕迹。任何一步偏差都会在 reads 中留下痕迹,例如 RNA 降解导致 3' 偏倚,PCR 过度扩增导致重复率升高,细胞破裂导致单细胞环境 RNA 增加。

3.2FASTQ、barcode 和 UMI

FASTQ 文件包含 reads 序列和每个碱基的质量分数。质量分数通常用 Phred score 表示,Q30 大致对应 0.1% 的碱基错误概率。单细胞和免疫组库数据还会包含 barcode:细胞 barcode 标记 reads 来自哪个细胞,样本 barcode 标记 reads 来自哪个样本。

UMI(Unique Molecular Identifier)是随机短序列,用来标记原始分子。它的核心作用是区分“真实的多个分子”和“同一个分子被 PCR 扩增出的多个拷贝”。有 UMI 的计数更接近分子数,没有 UMI 的计数更容易受 PCR 扩增偏好影响。

元素 含义 常见用途
read sequence 测到的碱基序列 比对和定量
quality score 每个碱基置信度 过滤低质量 reads
sample barcode 样本标签 多样本混合测序
cell barcode 细胞标签 单细胞归属
UMI 原始分子标签 去 PCR 重复

3.3比对、定量与矩阵

测序数据分析的核心转换,是从 reads 到矩阵。RNA-seq 会得到“样本 × 基因”的表达矩阵;单细胞会得到“细胞 × 基因”的稀疏矩阵;ATAC-seq 会得到“样本或细胞 × peaks”的可及性矩阵;微生物组会得到“样本 × taxa/功能”的丰度矩阵。

矩阵看起来整齐,但每一个数都来自一串假设:参考基因组是否完整,基因注释是否正确,多重比对如何处理,低丰度特征是否保留,归一化是否合适。这也是为什么同一批 FASTQ 用不同流程分析,可能产生不同结论。

3.4常见 QC 指标

QC 不是机械地按阈值删除数据,而是判断异常是否会影响结论。常见指标包括 reads 总数、比对率、重复率、GC 含量、片段长度分布、插入片段大小、线粒体比例、核糖体 RNA 比例、TSS enrichment、FRiP score、细胞数、基因数和样本间相关性。

不同组学有不同关键指标。单细胞 RNA-seq 特别关注每个细胞的 UMI 数、检测基因数、线粒体比例和 doublet;ATAC-seq 关注片段周期性、TSS enrichment 和 FRiP;甲基化测序关注转化率;微生物组关注阴性对照污染和测序深度。

3.5质量控制的判断逻辑

质量控制应当先看全局,再看局部。第一步观察样本是否按生物分组聚类,还是按批次、测序深度、RIN 或中心聚类。第二步检查异常样本是否有可解释原因。第三步判断删除样本是否会破坏设计平衡。第四步记录所有过滤规则,避免根据想要的结果反复调阈值。

实践建议

保存三套文件:原始矩阵、过滤后矩阵和 QC 报告。后续所有图和统计结果都应能追溯到具体过滤规则。