为什么组分数据(compositional data)会让标准统计失效?¶
总和被固定后,变量会凭空产生负相关。
长答案¶
组分数据(compositional data)只观察相对比例: $$ x_i=\frac{a_i}{\sum_{k=1}^D a_k},\qquad \sum_{i=1}^D x_i=1 $$ 真实绝对丰度 \(a_i\) 经过 closure operation 后落在 simplex 上。问题是:标准相关和差异分析默认变量在欧氏空间自由变化,但组分数据的总和约束让一个分量增加必然压低其他分量。
最小例子:真实绝对丰度 \(A=100,B=100,C=100\)。若只让 \(A\) 翻倍,变成 \(A=200,B=100,C=100\),相对丰度从: $$ (1/3,1/3,1/3) $$ 变成: $$ (1/2,1/4,1/4) $$ 标准分析会说 \(B,C\) 都下降了,但它们的绝对丰度没有变。
Aitchison 的解法是用 log-ratio,因为组分中可解释的信息是比例之间的比值。CLR(centered log-ratio): $$ \text{clr}(x_i)=\log\frac{x_i}{g(x)},\qquad g(x)=\left(\prod_{k=1}^D x_k\right)^{1/D} $$ 推导动机是尺度不变性:若绝对丰度整体乘以 \(c\),\(a_i'=ca_i\),则 \(x_i'=x_i\),可识别信息只能来自 \(a_i/a_j\)。log-ratio: $$ \log\frac{a_i}{a_j}=\log\frac{x_i}{x_j} $$ 不受 closure 影响。
为什么这么设计¶
微生物组、代谢物相对峰面积、single-cell cell-type fraction 都有 compositional 结构。log-ratio 方法不是数学洁癖,而是避免把“别的东西变了”误判成“这个东西变了”。
为什么不直接 rarefy 或总量归一化?rarefy 丢信息,总量归一化没有解除总和约束;它们不能恢复绝对丰度。
⚠️ 容易混淆 / 常见误解¶
误解 1:相对丰度下降说明绝对丰度下降。
为什么是错的:其他组分上升也会让它相对下降。
误解 2:CLR 后就万事大吉。
为什么是错的:零值仍需处理;不同 pseudocount 会影响低丰度特征。
误解 3:组分问题只存在于微生物组。
为什么是错的:任何 fixed-sum 或 depth-normalized feature 都可能有这个问题。
横向连接¶
- [[14-microbiome/compositional-transforms]]
- [[14-microbiome/differential-abundance-tools]]
- [[03-bulk-RNAseq/composition-bias-example]]
- [[04-scRNAseq/pseudoreplication-pseudobulk]]
- [[13-metabolomics/metabolomics-missing-value]]
我现在的理解状态¶
#待 Peter 确认
参考¶
- Aitchison (1982), Journal of the Royal Statistical Society B
- Aitchison (1986), The Statistical Analysis of Compositional Data
- Gloor et al. (2017), Frontiers in Microbiology
- Quinn et al. (2018), GigaScience