本章目录¶
- ATAC-seq 的基本原理
- peaks、motif 和 footprint
- bulk ATAC 与 single-cell ATAC
- QC 指标
- 解释边界
- CNS / 高影响案例深读:开放染色质如何指向调控元件
常见问题。 ATAC-seq 用来问“哪些调控 DNA 处于可访问状态”。它适合寻找候选 promoter/enhancer、比较细胞状态的调控潜能、推断候选 TF program,并帮助解释非编码 GWAS 位点或处理响应的上游调控层。
一般分析思路。 先看 TSS enrichment、FRiP、fragment length 和线粒体/叶绿体污染,再 call peaks,构建 peak-by-sample 或 peak-by-cell 矩阵,做差异可及性、motif 富集、footprint/gene activity 和 peak-to-gene linkage。
为什么这样分析。 Tn5 插入偏向开放染色质,但开放不等于 TF 已结合,也不等于 enhancer 有功能。QC 先确认看到的是核小体组织和真实开放区域,motif 和 peak-gene 分析只能提出调控假设,需要 RNA、ChIP/CUT&Tag、Hi-C/eQTL 或扰动验证。
生物学主线。 ATAC 读的是调控潜能:染色质是否允许转录因子访问。它比 RNA 更靠近上游调控,但仍只是 DNA 可及性这一层,不是最终表达或功能。
细胞里的 DNA 很长,不能散开成一团线,而是缠绕在 histone 蛋白上形成 nucleosome,再进一步折叠成 chromatin。这样做能把 DNA 收纳进细胞核,但也带来一个问题:如果某段 DNA 被包得很紧,转录因子和 RNA polymerase 就很难接近它。
ATAC-seq 测的是哪些 DNA 区域比较“松”、比较容易被 Tn5 酶切入。开放区域常常是 promoter、enhancer 或其它调控元件,表示细胞可能允许某些基因被调控。初学者要记住:ATAC 不是测 RNA,也不是直接测蛋白结合;它测的是基因组说明书上哪些页被翻开了。
7.1ATAC-seq 的基本原理¶
ATAC-seq 的核心是 Tn5 transposase。Tn5 更容易进入核小体缺失或染色质开放区域,并在切割 DNA 的同时插入测序接头。测序后,reads 富集的位置被称为 peaks,通常代表启动子、增强子、绝缘子或其他开放调控区域。
ATAC-seq 测到的是“可及性”,不是转录因子结合本身。开放区域更可能被调控因子访问,但并不等于该增强子正在驱动表达,也不等于某个 motif 对应的转录因子一定结合在那里。
生物学补充:开放染色质是调控潜能,不是表达本身¶
染色质可及性可以理解为基因组调控语法的“可读状态”。启动子附近开放,常常表示转录机器有机会进入;远端增强子开放,表示该细胞可能允许某些转录因子读取这段 DNA;绝缘子或边界元件开放,可能和 3D genome 的调控域有关。但这些都是潜能层。一个 enhancer 开放,不等于它此刻正在驱动目标基因;一个 promoter 关闭,也不等于该基因永远无法表达。
这种潜能层特别适合解释细胞身份。许多细胞类型在真正表达某些功能基因前,已经预先打开 lineage-specific enhancers,这叫 chromatin priming。免疫细胞激活、干细胞分化和植物胁迫响应里,ATAC 往往比 RNA 更早显示某些调控元件的准备状态。相反,有些 RNA 改变很快,但 ATAC 改变较慢,说明短期刺激可能先通过已有开放元件改变转录,而不是立即重塑染色质。
motif 分析要放回转录因子家族的生物学。AP-1、NF-kB、IRF、bZIP、MYB、WRKY、NAC 这类 motif 富集,通常提示一组可能的调控程序,但同一家族成员识别序列相似,不能单靠 motif 指定具体 TF。植物项目里尤其要注意:WRKY motif 富集可能提示免疫或胁迫调控,bZIP 可能连接 ABA/糖/胁迫,NAC 可能连接发育、木质化或逆境,但最终必须看 TF 本身表达、蛋白活性和扰动证据。
7.2peaks、motif 和 footprint¶
peaks 是 ATAC 分析的基本单位。peak calling 会识别 reads 富集区,然后构建“样本 × peak”或“细胞 × peak”的矩阵。差异可及性分析比较不同条件下哪些 peaks 更开放或更关闭。
motif 分析关注 peaks 中是否富集某些转录因子识别序列。例如疾病样本中开放的 peaks 富集 NF-kB motif,可以提示炎症调控增强。footprint 分析则试图利用 Tn5 插入模式识别转录因子保护区域,但对测序深度、酶偏好和模型假设非常敏感。
7.3bulk ATAC 与 single-cell ATAC¶
bulk ATAC-seq 适合比较纯化细胞群或组织样本的整体调控状态,信号稳定,peak calling 相对容易。single-cell ATAC-seq 能区分不同细胞类型的调控状态,但数据极度稀疏:单个细胞只捕获到全基因组开放区域的一小部分,因此分析更依赖聚合、降维和 motif 活性推断。
单细胞 ATAC 常见分析包括 LSI 降维、细胞聚类、gene activity score、peak-to-gene linkage、motif deviation 和与 scRNA-seq 的联合整合。gene activity 是从基因附近开放区域推测表达潜力,不是实际表达。
7.4QC 指标¶
ATAC-seq 的关键 QC 包括 TSS enrichment、FRiP score、片段长度分布、线粒体 reads 比例、重复率和样本相关性。高质量 ATAC 通常能看到核小体周期性:短片段来自核小体缺失区域,较长片段对应 mono-nucleosome、di-nucleosome 等结构。
| 指标 | 含义 | 异常提示 |
|---|---|---|
| TSS enrichment | TSS 附近信号富集程度 | 核提取或建库质量差 |
| FRiP | reads 落在 peaks 中的比例 | 信噪比低 |
| mitochondrial reads | 线粒体 reads 比例 | 细胞破裂或样本质量差 |
| fragment pattern | 片段长度周期性 | 核小体结构是否清晰 |
7.5解释边界¶
ATAC-seq 很适合提出调控假设:哪个增强子被打开,哪个转录因子 motif 被富集,哪个细胞状态的调控程序发生变化。但它不能单独证明某增强子调控某基因。增强子-基因连接通常需要结合距离、共变、Hi-C/染色质互作、eQTL、CRISPR 扰动或报告基因实验。
看到 ATAC 结果时,先问:开放区域是否与表达变化一致?motif 对应的转录因子是否表达?候选 enhancer 是否有独立证据连接到目标基因?
对机制表述要保守分级:peak 更开放 支持可及性变化;motif 富集 支持候选 TF family;peak 与基因表达共变 支持候选调控关系;扰动 enhancer 或 TF 后表达和表型改变 才支持调控因果。把这四层混成一句“某 TF 调控某基因导致表型”,是 ATAC 论文最常见的过度解释。
7.6CNS / 高影响案例深读:开放染色质如何指向调控元件¶
我选的案例。 Buenrostro et al. 2013, Nature Methods 是 ATAC-seq 方法学起点;Corces et al. 2018, Science 的 TCGA primary human cancers ATAC 图谱更适合做生物学深读,因为它展示可及性如何连接肿瘤亚型、非编码调控和 TF program。
科研逻辑图。
flowchart LR
Q[真实问题: 表达变化的上游调控元件在哪里] --> T[Tn5 插入开放染色质]
T --> P[peaks: 候选 promoter/enhancer]
P --> M[motif 富集: 候选 TF program]
P --> G[peak-gene link: 距离/共变/3D/eQTL]
M --> H[调控假设]
G --> H
H --> V[验证: RNA一致性 / CUT&Tag / CRISPR enhancer perturbation]
为什么必须做 ATAC。 RNA-seq 告诉你表达输出变了,但不告诉你上游哪一段 promoter、enhancer 或 insulator 变得可访问。很多 GWAS 风险变异和癌症非编码变异不改变蛋白序列,而是改变调控元件。ATAC-seq 把问题推到“调控 DNA 是否处于可访问状态”这一层。
原理如何支撑结论。 Tn5 更容易进入 nucleosome-depleted 或开放染色质区域,并在切割时插入测序接头。reads 富集形成 peaks,peak 的位置提示候选调控元件;peak 内 motif 富集提示可能的 TF program;片段长度分布提示核小体组织。Corces 等人把 ATAC peaks 与 TCGA 的表达、甲基化、突变和临床信息对齐,让“开放区域”不再只是 peak list,而是可解释癌症调控状态的坐标。
从实际科研逻辑怎么读。 ATAC 论文要按三层证据读。第一层是 peak:某区域开放,说明 DNA 可被 Tn5 访问。第二层是 motif:开放区域里某 TF motif 富集,说明这个 TF family 的 binding grammar 被利用,但不等于该 TF 已结合。第三层是 peak-to-gene:如果开放 peak 与附近或远端基因表达共变,或有 3D/eQTL 支撑,才更接近调控关系。Corces 的强处在于把癌症 ATAC 放进 TCGA 多组学背景,能从单个 peak 上升到 cancer type/subtype regulatory program。
关键结果如何支撑生物学声明。 ATAC profiles 区分癌症亚型,支持“调控状态携带肿瘤身份信息”;差异 peaks 富集 lineage TF motifs,支持“谱系 TF program 参与维持肿瘤状态”;非编码风险位点落在癌症开放元件中,支持“风险变异可能作用于调控 DNA”。但每一步都是证据链的一环,最强的是“提出候选 enhancer/TF/gene”,不是直接证明 enhancer 驱动某基因。
结论边界。 开放不等于 TF 已结合,motif 富集不等于 TF 活性,peak 到 gene 的最近距离不等于 enhancer 靶基因。更强结论需要 RNA 表达一致性、ChIP/CUT&Tag、Hi-C/ABC model、eQTL 或 CRISPR enhancer perturbation。植物 ATAC 还要特别检查叶绿体和线粒体污染,否则 FRiP 和 peak 解释会被拉偏。
参考。 Buenrostro et al. 2013. Nature Methods. https://www.nature.com/articles/nmeth.2688;Corces et al. 2018. Science. https://www.science.org/doi/10.1126/science.aav1898
延伸深读。 [[08-ATAC/_papers/buenrostro-2013-nature-methods-atacseq]];[[08-ATAC/_papers/corces-2018-science-cancer-atac]]