跨组学通用概念推导题 · 2026-05-W1¶

主题：计数模型、混合模型、降维、多重检验、组分数据用时建议：60–90 分钟不查资料

Q1. 概念辨析¶

区分 overdispersion、zero inflation、compositional bias。要求：

(a) 各给一个最小数学定义。
(b) 各给一个在组学数据中的例子。
(c) 说明为什么“零很多”不能推出 zero inflation。

Q2. 推导¶

设 $Y\mid\lambda\sim\text{Poisson}(\lambda)$，$\lambda\sim\text{Gamma}(r,\theta)$。

(a) 用全期望和全方差推导 $\mathbb{E}(Y)$ 与 $\text{Var}(Y)$。
(b) 令 $\mu=r\theta$，$\alpha=1/r$，推导 $\text{Var}(Y)=\mu+\alpha\mu^2$。
(c) 当 $\alpha\to0$ 时，解释为什么退化为泊松。

Q3. 反例构造¶

构造一个 3-feature、2-condition 的相对丰度数据，使得：

真实绝对丰度只有 feature A 改变；
closure 后 feature B 和 C 都看起来下降；
标准 t-test 会错误报告 B 或 C 变化。

给出具体绝对丰度矩阵和相对丰度矩阵。

Q4. 设计¶

你要做一个植物根际微生物组 + 根转录组联合实验。共有 2 个 genotype、2 个 treatment、3 个采样日期。由于温室空间限制，每个日期只能处理一个 genotype。

(a) 写出主要 confounding。
(b) 说明 random effect 能否救这个设计。
(c) 重新设计 sampling/blocking，使 genotype、treatment、date 可估。
(d) 哪些变量应进入模型，哪些应作为 QC 诊断？

Q5. 横向连接¶

把 PCA/SVD、GWAS mixed model、scRNA pseudobulk、microbiome CLR 放进同一个“避免假结构”的框架。

要求每个概念写出一个矩阵或模型公式，并说明它在消除哪类伪信号。

答案（做完再展开）

### A1 Overdispersion：$\text{Var}(Y)>\mathbb{E}(Y)$，如 RNA-seq 生物重复间 count 方差超过泊松。 Zero inflation：$P(Y=0)$ 大于基准分布预期，如 $P_{\text{obs}}(0)>P_{\text{NB}}(0)$。 Compositional bias：只观察 $x_i=a_i/\sum_k a_k$，总和约束导致相对变化不等于绝对变化。零很多不能推出 zero inflation，因为低 $\mu$、高 dispersion 的 NB 自身就能产生大量零。 ### A2 全期望： $$ \mathbb{E}(Y)=\mathbb{E}[\mathbb{E}(Y\mid\lambda)]=\mathbb{E}(\lambda)=r\theta=\mu $$ 全方差： $$ \text{Var}(Y)=\mathbb{E}[\text{Var}(Y\mid\lambda)]+\text{Var}[\mathbb{E}(Y\mid\lambda)] =\mathbb{E}(\lambda)+\text{Var}(\lambda) =r\theta+r\theta^2 $$ 令 $\mu=r\theta$，$\alpha=1/r$，则 $\theta=\alpha\mu$： $$ \text{Var}(Y)=\mu+\mu\theta=\mu+\alpha\mu^2 $$ 当 $\alpha\to0$，二次项消失，方差回到 $\mu$，即泊松 mean-variance 关系。 ### A3 绝对丰度： | condition | A | B | C | |---|---:|---:|---:| | control | 100 | 100 | 100 | | treatment | 300 | 100 | 100 | 相对丰度： | condition | A | B | C | |---|---:|---:|---:| | control | 0.333 | 0.333 | 0.333 | | treatment | 0.600 | 0.200 | 0.200 | B、C 绝对不变，但相对丰度下降。若加几个重复并给很小技术噪声，t-test 会把 B、C 判为显著下降。这是假差异，来源是 closure。 ### A4 (a) genotype 与 date 完全混杂，无法区分 genotype effect 与 date effect。 (b) 不能。random effect 只能建模相关性，不能从完全混杂中恢复不可辨识参数。 (c) 每个日期都采 2 genotype × 2 treatment，每个组合至少多个生物重复；若温室空间不足，就跨日期轮换 genotype/treatment 的位置和处理顺序。 (d) 模型项：`~ date + genotype + treatment + genotype:treatment`，必要时 donor/pot/bench 作 random 或 fixed blocking。QC：测序深度、提取批次、RIN、微生物 DNA yield、PCA/PCoA 是否按日期聚类。 ### A5 PCA/SVD：$X=U\Sigma V^\top$，识别最大方差方向，避免把隐藏 batch 当 condition 前需诊断 PC 与 metadata 的关系。 GWAS mixed model：$y=X\beta+g+\epsilon,\ g\sim N(0,\sigma_g^2K)$，用 kinship covariance 消除亲缘相关造成的假 SNP 效应。 scRNA pseudobulk：$Y_{gsc}=\sum_{i\in(s,c)}Y_{gi}$，把细胞汇总到 sample × cell type，避免把同一 donor 的细胞当独立重复。 Microbiome CLR：$\text{clr}(x_i)=\log(x_i/g(x))$，用 log-ratio 消除 fixed-sum closure 造成的伪相关。

自评清单¶

[ ] Q1 完全做对
[ ] Q2 推导无误
[ ] Q3 反例可执行
[ ] Q4 设计合理
[ ] Q5 横向类比清晰

跨组学通用概念 推导题 · 2026-05-W1¶