组学里什么时候 Bayesian 真的有用而不是炫技？¶

当需要共享信息、表达不确定性或引入先验时。

长答案¶

Bayesian 的核心是把未知量当随机变量： $$ p(\theta\mid y)=\frac{p(y\mid\theta)p(\theta)}{p(y)} $$ 其中证据项： $$ p(y)=\int p(y\mid\theta)p(\theta)d\theta $$ 推导只是条件概率： $$ p(\theta,y)=p(y\mid\theta)p(\theta)=p(\theta\mid y)p(y) $$ 移项即 Bayes theorem。

组学里 Bayesian 真有用的第一类场景是 shrinkage。假设每个基因效应 $\beta_g$ 来自共同先验： $$ \beta_g\sim N(0,\tau^2),\qquad \hat\beta_g\mid\beta_g\sim N(\beta_g,s_g^2) $$ 后验均值为： $$ \mathbb{E}(\beta_g\mid\hat\beta_g)= \frac{\tau^2}{\tau^2+s_g^2}\hat\beta_g $$ 推导来自两个正态密度相乘：后验 precision 是先验 precision 与似然 precision 之和， $$ \frac{1}{v}=\frac{1}{\tau^2}+\frac{1}{s_g^2},\qquad \frac{m}{v}=\frac{\hat\beta_g}{s_g^2} $$ 所以 $m=\frac{\tau^2}{\tau^2+s_g^2}\hat\beta_g$。低信息基因 $s_g^2$ 大，shrink 更多。

第二类是 latent variable model，如 scVI、MOFA，把不可观测的 cell state、batch、factor 写入生成模型。第三类是层次模型，如 eQTL、甲基化、蛋白组缺失值中共享方差信息。第四类是需要输出完整不确定性，而不是单个点估计。

为什么这么设计¶

组学特征多、重复少。每个基因单独估计会不稳定；完全 pooled 又抹掉差异。Bayesian hierarchical model 提供 partial pooling：相似问题共享信息，但不强迫完全相同。

什么时候是炫技？当普通 GLM 已经回答问题，而 Bayesian 模型只增加不可诊断的先验、复杂采样和难解释 latent factor。Bayesian 不是更高级的 p 值替代品。

⚠️ 容易混淆 / 常见误解¶

误解 1：Bayesian 结果更主观，所以不适合科学。
为什么是错的：频率学方法也有隐含正则化和模型假设；Bayesian 只是把先验显式化。

误解 2：posterior probability 就等于真实概率。
为什么是错的：它是在模型和先验条件下的条件概率，模型错时后验也错。

误解 3：变分推断的 ELBO 高就代表生物解释好。
为什么是错的：ELBO 是拟合目标，不保证 latent factor 可解释或因果。

横向连接¶

[[03-bulk-RNAseq/lfc-shrinkage-priors]]
[[15-multiomics-integration/mofa-variational]]
[[15-multiomics-integration/scvi-totalvi-multivi]]
[[09-methylation/beta-binomial-for-methylation]]
[[02-GWAS/fine-mapping-methods]]

我现在的理解状态¶

#待 Peter 确认

参考¶

Efron & Morris (1973), Journal of the American Statistical Association
Stephens (2016), Biostatistics
Lopez et al. (2018), Nature Methods
Argelaguet et al. (2020), Genome Biology