跳转至

Random effect 在 GWAS / scRNA / 重复测量里到底是不是同一件事?

是同一思想:把相关性写进协方差。

长答案

随机效应(random effect)的核心不是“某因素随机抽样”,而是把观测之间的相关性显式写进模型。标准线性混合模型(linear mixed model, LMM): $$ y=X\beta+Zu+\epsilon,\qquad u\sim N(0,G),\quad \epsilon\sim N(0,R) $$

因此: $$ \text{Var}(y)=\text{Var}(Zu+\epsilon)=ZGZ^\top+R $$ 这里交叉项为 0,因为假设 \(u\)\(\epsilon\) 独立。所有应用差异,本质上都在选择 \(Z\)\(G\)\(R\)

GWAS 中,个体间有亲缘相关: $$ y=X\beta+g+\epsilon,\qquad g\sim N(0,\sigma_g^2K) $$ 所以: $$ \text{Var}(y)=\sigma_g^2K+\sigma_e^2I $$ \(K\) 是 kinship matrix。它让近亲个体的 residual 允许更相似,避免把群体结构误判成 SNP 效应。

重复测量中,多个时间点来自同一对象。可写: $$ y_{ij}=x_{ij}^\top\beta+b_i+\epsilon_{ij},\qquad b_i\sim N(0,\sigma_b^2) $$ 同一对象内任意两个观测的协方差为 \(\sigma_b^2\)

scRNA 的 donor-level random effect 也是这个逻辑:同一 donor 的细胞不是独立样本。随机截距允许它们共享 donor baseline。

为什么这么设计

如果相关性不进模型,标准误会被低估。GWAS 中是假阳性膨胀;scRNA 中是 pseudoreplication;重复测量中是把同一对象内的多个点当成多个独立对象。

为什么不直接加 fixed effect?当 level 很少且关心每个 level,fixed effect 更稳;当 level 多且目标是估计方差结构,random effect 更合适。GWAS 的 kinship 不是普通 categorical batch,无法用成千上万个固定效应优雅表示。

⚠️ 容易混淆 / 常见误解

误解 1:random effect 只用于随机抽样的因素。
为什么是错的:实践中它常用于建模相关性与 shrinkage,抽样解释不是唯一理由。

误解 2:batch 总该设 random effect。
为什么是错的:只有 2 个 batch 时方差成分估计很弱,通常 fixed effect 更直接。

误解 3:加了 random effect 就解决 confounding。
为什么是错的:如果 batch 与 condition 完全重合,协方差建模也分不开二者。

横向连接

  • [[_concepts/glm-unified-view]]
  • [[_concepts/batch-effects-causes-and-cures]]
  • [[02-GWAS/why-mixed-model-in-gwas]]
  • [[04-scRNAseq/pseudoreplication-pseudobulk]]
  • [[00-foundations/experimental-design-fundamentals]]

我现在的理解状态

#待 Peter 确认

参考

  • Henderson (1950), Annals of Mathematical Statistics
  • Laird & Ware (1982), Biometrics
  • Kang et al. (2010), Nature Genetics
  • Yang et al. (2014), Nature Genetics