Pol II 的转录起始、延伸和终止到底在发生什么？¶

RNA-seq 的 count 是 Pol II 通过多道闸门后的产物，不只是启动子强弱。

长答案¶

RNA polymerase II（RNA 聚合酶 II，Pol II）负责多数 mRNA 和一部分 non-coding RNA 的转录。Bulk RNA-seq 里一个基因的 read count，表面上像“表达量”，分子层面其实是这条链的总输出：

flowchart LR
  A[enhancer/promoter 招募] --> B[PIC 组装]
  B --> C[TFIIH 解旋 + 起始]
  C --> D[+20~60 nt promoter-proximal pause]
  D --> E[P-TEFb 释放暂停]
  E --> F[productive elongation]
  F --> G[剪接/加帽/加尾共转录加工]
  G --> H[polyA site cleavage]
  H --> I[Xrn2/Rat1 torpedo + allosteric 终止]
  G --> J[成熟 mRNA 输出与降解]

起始不是 Pol II 单独“坐上 DNA 就开始读”。pre-initiation complex（预起始复合体，PIC）先把 TBP/TFIID、TFIIB、TFIIF、TFIIE、TFIIH 和 Pol II 组织到 promoter 上；TFIIH 打开转录泡后，Pol II 活性中心才开始把 NTP 接到新生 RNA 3'OH 上。这个阶段决定的是“能不能启动”，不是最终 steady-state RNA 数量。

第一道关键闸门是 promoter-proximal pausing（启动子近端暂停）。许多动物基因起始后只走 20-60 nt 就停住，DSIF 和 NELF 稳定暂停复合体。暂停不是失败，而是把基因放在“已起始、等释放”的状态：RNA 5' 端足够长，可以加帽；细胞再通过 P-TEFb/CDK9 磷酸化 DSIF、NELF 和 Pol II CTD，决定是否进入 productive elongation（有效延伸）。所以 promoter 上有 Pol II ChIP-seq peak，不等于该基因一定有高 mRNA。

Pol II 最大亚基 RPB1 的 C-terminal domain（羧基端结构域，CTD）是移动脚手架。CTD 由重复七肽 \(Y_1S_2P_3T_4S_5P_6S_7\) 构成。起始附近 Ser5 phosphorylation（Ser5 磷酸化）高，利于招募 5' capping enzyme；进入基因体后 Ser2 phosphorylation（Ser2 磷酸化）升高，偏向 3' end processing、termination 和部分 splicing coupling。它不是“Ser5=起始、Ser2=延伸”的二元开关，而是动态 landing pad。

终止也不是 Pol II 到 polyA signal 就立刻停车。polyadenylation signal 先让新生 RNA 被切开；切点下游仍连着 Pol II 的 RNA 暴露 5' 端，被 Xrn2/Rat1 这类 5'→3' exonuclease 追上并促使 Pol II 解离，这叫 torpedo model（鱼雷模型）。所以 RNA 3' 端定义和 Pol II 离开 DNA，是耦合但不完全同一件事。

把这些步骤压成一个最小动力学模型，可以看到为什么 RNA-seq count 不能只解释成 initiation rate。设 promoter 每单位时间成功起始 \(r\) 次；暂停释放并完成有效延伸的概率为 \(p\)；加工后能成为稳定成熟 RNA 的概率为 \(q\)；成熟 RNA 降解速率为 \(\gamma\)。成熟 mRNA 数量 \(M(t)\) 满足：

\[ \frac{dM}{dt}=rpq-\gamma M \]

推导：单位时间进入成熟池的分子数是 \(rpq\)；单位时间消失的分子数与当前分子数成正比，为 \(\gamma M\)。稳态时 \(dM/dt=0\)，所以：

\[ M^\*=\frac{rpq}{\gamma} \]

RNA-seq 的 read count 近似反映 \(M^\*\) 再乘以长度、深度、捕获效率等技术因素。同样的 count 变化，可以来自 promoter recruitment、pause release、RNA processing 或 mRNA stability。Bulk RNA-seq 的强项是总输出；弱点是单独一张 count matrix 通常不能把 \(r,p,q,\gamma\) 分开。

为什么这么设计¶

细胞没有把转录设计成“一启动就一路跑到底”，因为 mRNA 不是裸 RNA 字符串，而是需要身份认证和加工的分子。暂停给 5' capping 和信号整合留出窗口；CTD 把 Pol II 从单纯聚合酶变成移动脚手架；polyA cleavage 与 termination 耦合，保证 3' 端定义和 Pol II 回收协调发生。

代价是解释复杂。RNA-seq 看到的 DEG 不是单一调控步骤的读数，而是多个闸门的乘积。要把差异表达解释成“转录因子激活了 promoter”，通常还需要 nascent RNA、Pol II ChIP/CUT&Tag、ATAC、PRO-seq/GRO-seq 或 mRNA stability 实验来分解。

⚠️ 容易混淆 / 常见误解¶

误解 1：RNA-seq count 等于转录起始强度。
为什么是错的：稳态 \(M^\*=rpq/\gamma\) 里，起始 \(r\) 只是一个因子。暂停释放、加工效率和降解速率都能改变 count。

误解 2：CTD phosphorylation 是确定性的“密码”。
为什么是错的：Ser2/Ser5 只是主轴；抗体 ChIP 看到的是群体平均和表位可及性，不是单个 Pol II 的完整状态。

误解 3：polyA signal 就是转录终止点。
为什么是错的：polyA signal 定义的是 RNA cleavage 和加尾位置；Pol II 通常继续向下游走一段，再由 Xrn2/Rat1 和构象变化促成解离。

横向连接¶

[[03-bulk-RNAseq/5-prime-capping-and-meaning]]
[[03-bulk-RNAseq/co-transcriptional-coupling]]
[[03-bulk-RNAseq/mRNA-stability-and-decay]]
[[04-scRNAseq/transcriptional-bursting]]
[[08-ATAC/atac-rna-multimodal]]
[[10-ChIP-CUTRUN/chip-cutrun-cuttag]]

我现在的理解状态¶

#待 Peter 确认

参考¶

Cramer et al. (2001), Science — Pol II 2.8 Å 结构与转录机制基础
Cho et al. (1997), Genes & Development — CTD 磷酸化招募 mRNA capping enzyme
Komarnitsky et al. (2000), Genes & Development — Ser5/Ser2 CTD 磷酸化和 RNA 加工因子的动态分布
Core et al. (2008), Science — nascent RNA sequencing 揭示广泛 promoter-proximal pausing
West et al. (2004), Nature — Xrn2 支持 Pol II 终止的 torpedo model