跨组学通用概念 推导题 · 2026-05-W1¶
主题:计数模型、混合模型、降维、多重检验、组分数据 用时建议:60–90 分钟 不查资料
Q1. 概念辨析¶
区分 overdispersion、zero inflation、compositional bias。要求:
(a) 各给一个最小数学定义。
(b) 各给一个在组学数据中的例子。
(c) 说明为什么“零很多”不能推出 zero inflation。
Q2. 推导¶
设 \(Y\mid\lambda\sim\text{Poisson}(\lambda)\),\(\lambda\sim\text{Gamma}(r,\theta)\)。
(a) 用全期望和全方差推导 \(\mathbb{E}(Y)\) 与 \(\text{Var}(Y)\)。
(b) 令 \(\mu=r\theta\),\(\alpha=1/r\),推导 \(\text{Var}(Y)=\mu+\alpha\mu^2\)。
(c) 当 \(\alpha\to0\) 时,解释为什么退化为泊松。
Q3. 反例构造¶
构造一个 3-feature、2-condition 的相对丰度数据,使得:
- 真实绝对丰度只有 feature A 改变;
- closure 后 feature B 和 C 都看起来下降;
- 标准 t-test 会错误报告 B 或 C 变化。
给出具体绝对丰度矩阵和相对丰度矩阵。
Q4. 设计¶
你要做一个植物根际微生物组 + 根转录组联合实验。共有 2 个 genotype、2 个 treatment、3 个采样日期。由于温室空间限制,每个日期只能处理一个 genotype。
(a) 写出主要 confounding。
(b) 说明 random effect 能否救这个设计。
(c) 重新设计 sampling/blocking,使 genotype、treatment、date 可估。
(d) 哪些变量应进入模型,哪些应作为 QC 诊断?
Q5. 横向连接¶
把 PCA/SVD、GWAS mixed model、scRNA pseudobulk、microbiome CLR 放进同一个“避免假结构”的框架。
要求每个概念写出一个矩阵或模型公式,并说明它在消除哪类伪信号。
答案(做完再展开)
### A1 Overdispersion:$\text{Var}(Y)>\mathbb{E}(Y)$,如 RNA-seq 生物重复间 count 方差超过泊松。 Zero inflation:$P(Y=0)$ 大于基准分布预期,如 $P_{\text{obs}}(0)>P_{\text{NB}}(0)$。 Compositional bias:只观察 $x_i=a_i/\sum_k a_k$,总和约束导致相对变化不等于绝对变化。 零很多不能推出 zero inflation,因为低 $\mu$、高 dispersion 的 NB 自身就能产生大量零。 ### A2 全期望: $$ \mathbb{E}(Y)=\mathbb{E}[\mathbb{E}(Y\mid\lambda)]=\mathbb{E}(\lambda)=r\theta=\mu $$ 全方差: $$ \text{Var}(Y)=\mathbb{E}[\text{Var}(Y\mid\lambda)]+\text{Var}[\mathbb{E}(Y\mid\lambda)] =\mathbb{E}(\lambda)+\text{Var}(\lambda) =r\theta+r\theta^2 $$ 令 $\mu=r\theta$,$\alpha=1/r$,则 $\theta=\alpha\mu$: $$ \text{Var}(Y)=\mu+\mu\theta=\mu+\alpha\mu^2 $$ 当 $\alpha\to0$,二次项消失,方差回到 $\mu$,即泊松 mean-variance 关系。 ### A3 绝对丰度: | condition | A | B | C | |---|---:|---:|---:| | control | 100 | 100 | 100 | | treatment | 300 | 100 | 100 | 相对丰度: | condition | A | B | C | |---|---:|---:|---:| | control | 0.333 | 0.333 | 0.333 | | treatment | 0.600 | 0.200 | 0.200 | B、C 绝对不变,但相对丰度下降。若加几个重复并给很小技术噪声,t-test 会把 B、C 判为显著下降。这是假差异,来源是 closure。 ### A4 (a) genotype 与 date 完全混杂,无法区分 genotype effect 与 date effect。 (b) 不能。random effect 只能建模相关性,不能从完全混杂中恢复不可辨识参数。 (c) 每个日期都采 2 genotype × 2 treatment,每个组合至少多个生物重复;若温室空间不足,就跨日期轮换 genotype/treatment 的位置和处理顺序。 (d) 模型项:`~ date + genotype + treatment + genotype:treatment`,必要时 donor/pot/bench 作 random 或 fixed blocking。QC:测序深度、提取批次、RIN、微生物 DNA yield、PCA/PCoA 是否按日期聚类。 ### A5 PCA/SVD:$X=U\Sigma V^\top$,识别最大方差方向,避免把隐藏 batch 当 condition 前需诊断 PC 与 metadata 的关系。 GWAS mixed model:$y=X\beta+g+\epsilon,\ g\sim N(0,\sigma_g^2K)$,用 kinship covariance 消除亲缘相关造成的假 SNP 效应。 scRNA pseudobulk:$Y_{gsc}=\sum_{i\in(s,c)}Y_{gi}$,把细胞汇总到 sample × cell type,避免把同一 donor 的细胞当独立重复。 Microbiome CLR:$\text{clr}(x_i)=\log(x_i/g(x))$,用 log-ratio 消除 fixed-sum closure 造成的伪相关。自评清单¶
- [ ] Q1 完全做对
- [ ] Q2 推导无误
- [ ] Q3 反例可执行
- [ ] Q4 设计合理
- [ ] Q5 横向类比清晰