重复测量里到底是不是同一件事？¶

是同一思想：把相关性写进协方差。

长答案¶

随机效应（random effect）的核心不是“某因素随机抽样”，而是把观测之间的相关性显式写进模型。标准线性混合模型（linear mixed model, LMM）： $$ y=X\beta+Zu+\epsilon,\qquad u\sim N(0,G),\quad \epsilon\sim N(0,R) $$

因此： $$ \text{Var}(y)=\text{Var}(Zu+\epsilon)=ZGZ^\top+R $$ 这里交叉项为 0，因为假设 $u$ 与 $\epsilon$ 独立。所有应用差异，本质上都在选择 $Z$、$G$、$R$。

GWAS 中，个体间有亲缘相关： $$ y=X\beta+g+\epsilon,\qquad g\sim N(0,\sigma_g^2K) $$ 所以： $$ \text{Var}(y)=\sigma_g^2K+\sigma_e^2I $$ $K$ 是 kinship matrix。它让近亲个体的 residual 允许更相似，避免把群体结构误判成 SNP 效应。

重复测量中，多个时间点来自同一对象。可写： $$ y_{ij}=x_{ij}^\top\beta+b_i+\epsilon_{ij},\qquad b_i\sim N(0,\sigma_b^2) $$ 同一对象内任意两个观测的协方差为 $\sigma_b^2$。

scRNA 的 donor-level random effect 也是这个逻辑：同一 donor 的细胞不是独立样本。随机截距允许它们共享 donor baseline。

为什么这么设计¶

如果相关性不进模型，标准误会被低估。GWAS 中是假阳性膨胀；scRNA 中是 pseudoreplication；重复测量中是把同一对象内的多个点当成多个独立对象。

为什么不直接加 fixed effect？当 level 很少且关心每个 level，fixed effect 更稳；当 level 多且目标是估计方差结构，random effect 更合适。GWAS 的 kinship 不是普通 categorical batch，无法用成千上万个固定效应优雅表示。

⚠️ 容易混淆 / 常见误解¶

误解 1：random effect 只用于随机抽样的因素。
为什么是错的：实践中它常用于建模相关性与 shrinkage，抽样解释不是唯一理由。

误解 2：batch 总该设 random effect。
为什么是错的：只有 2 个 batch 时方差成分估计很弱，通常 fixed effect 更直接。

误解 3：加了 random effect 就解决 confounding。
为什么是错的：如果 batch 与 condition 完全重合，协方差建模也分不开二者。

横向连接¶

[[_concepts/glm-unified-view]]
[[_concepts/batch-effects-causes-and-cures]]
[[02-GWAS/why-mixed-model-in-gwas]]
[[04-scRNAseq/pseudoreplication-pseudobulk]]
[[00-foundations/experimental-design-fundamentals]]

我现在的理解状态¶

#待 Peter 确认

参考¶

Henderson (1950), Annals of Mathematical Statistics
Laird & Ware (1982), Biometrics
Kang et al. (2010), Nature Genetics
Yang et al. (2014), Nature Genetics