贝叶斯学习 - お前はどこまで見えている

1. 简介

贝叶斯学习（Baysian Learning）是基于贝叶斯定理的一个推断方法。其考虑的场景为：我们观测到一个数据集合 $\mathcal{D}$ ，其服从条件分布 $p(\mathcal{D} | \boldsymbol{w})$ （我们称 $p(\mathcal{D} | \boldsymbol{w})$ 为模型分布），其中模型参数 $\boldsymbol{w}$ 是未知的（当看作是 $\boldsymbol{w}$ 的函数时， $p(\mathcal{D}|\boldsymbol{w})$ 也被称为模型似然）。尽管 $\boldsymbol{w}$ 是未知的，但先验分布 $p(\boldsymbol{w})$ 往往是已知的，而我们要求解的便是 $\boldsymbol{w}$ 。

2. 贝叶斯定理

贝叶斯学习是基于联合分布 $p(\mathcal{D}, \boldsymbol{w})$ 的基本分解公式，如下所示：

\underbrace{p(\boldsymbol{w} | \mathcal{D})}_{\text {posterior}} \underbrace{p(\mathcal{D})}_{\text {marginal}} = \underbrace{p(\mathcal{D}, \boldsymbol{w})}_{\text {joint}} = \underbrace{p(\mathcal{D} | \boldsymbol{w})}_{\text {likelihood}} \underbrace{p(\boldsymbol{w})}_{\text {prior}} \tag{1}

其中，边际分布 $p(\mathcal{D}) = \int_{\mathcal{\boldsymbol{W}}} p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} = \int_{\mathcal{\boldsymbol{W}}} p(\mathcal{D} | \boldsymbol{w}) p(\boldsymbol{w}) \mathrm{d}\boldsymbol{w}$ ， $\mathcal{\boldsymbol{W}}$ 是模型参数 $\boldsymbol{w}$ 的域。而后验分布 $p(\boldsymbol{w} | \mathcal{D}) = \frac{p(\mathcal{D}, \boldsymbol{w})}{p(\mathcal{D})} \propto p(\mathcal{D}, \boldsymbol{w})$ ，其与联合分布 $p(\mathcal{D}, \boldsymbol{w})$ 只相差一个比例系数（这是因为 $p(\mathcal{D})$ 对于 $\boldsymbol{w}$ 来说是一个常数），换句话说，联合分布是未规范的后验分布。

注意，如果 $\mathcal{\boldsymbol{W}}$ 是离散的，则上述公式的密度积分应该替换成概率求和。

3. 最大似然

最大似然（ML）方法通过最大化似然概率来估计未知参数 $\boldsymbol{w}$ ：

\hat{\boldsymbol{w}}^{\mathrm{ML}} = \arg\max{p(\mathcal{D} | \boldsymbol{w})} \tag{2}

4. 最大后验概率

最大后验概率（MAP）方法通过最大化后验概率来估计未知参数 $\boldsymbol{w}$ ：

\hat{\boldsymbol{w}}^{\mathrm{MAP}} = \arg\max{p(\boldsymbol{w} | \mathcal{D})} = \arg\max{p(\mathcal{D}, \boldsymbol{w})} = \arg\max{p(\mathcal{D} | \boldsymbol{w}) p(\boldsymbol{w})} \tag{3}

可以看到，当先验概率 $p(\boldsymbol{w})$ 服从均匀分布时， $p(\boldsymbol{w}) \propto 1$ ，此时称先验概率 $p(\boldsymbol{w})$ 为 uniform prior 或 flat prior。

求解 MAP 可以使用 EM 算法。

5. 贝叶斯学习

使用贝叶斯学习方法，要计算至少以下一个量：

Marginal likelihood（zeroth moment）
$p(\mathcal{D}) = \int p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} \tag{4}$
Posterior mean（first moment）
$\bar{\boldsymbol{w}} = \mathbb{E}_{p(\boldsymbol{w}|\mathcal{D})} \left[ \boldsymbol{w} \right] = \frac{1}{p(\mathcal{D})} \int \boldsymbol{w} \cdot p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} \tag{5}$
Posterior covariance（second moment）
$\mathbb{E}_{p(\boldsymbol{w}|\mathcal{D})} \left[ (\boldsymbol{w} - \bar{\boldsymbol{w}})(\boldsymbol{w} - \bar{\boldsymbol{w}})^\top \right] = \frac{1}{p(\mathcal{D})} \int (\boldsymbol{w} - \bar{\boldsymbol{w}})(\boldsymbol{w} - \bar{\boldsymbol{w}})^\top p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} \tag{6}$
Predictive distribution（expectation of model distribution）
$p(\mathcal{D}^{\mathrm{new}} | \mathcal{D}) = \mathbb{E}_{p(\boldsymbol{w} | \mathcal{D})} \left[ p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) \right] = \frac{1}{p(\mathcal{D})} \int p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) p(\mathcal{D}, \boldsymbol{w}) \mathrm{d} \boldsymbol{w} \tag{7}$

这里有分解有很多版本，每个版本的条件可能有所不同，比如上面给出的版本就要求当给定条件 $\boldsymbol{w}$ 时， $\mathcal{D}^{\mathrm{new}}$ 与 $\mathcal{D}$ 独立。另外两种分解如下：
$p(\mathcal{D}^{\mathrm{new}} | \mathcal{D}) = \mathbb{E}_{p(\boldsymbol{w} | \mathcal{D})} \left[ p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) \right] = \frac{1}{p(\mathcal{D})} \int p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}, \mathcal{D}) p(\mathcal{D}, \boldsymbol{w}) \mathrm{d} \boldsymbol{w} \\ p(\mathcal{D}^{\mathrm{new}} | \mathcal{D}) = \mathbb{E}_{p(\boldsymbol{w} | \mathcal{D})} \left[ p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) \right] = \int p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}, \mathcal{D}) p(\boldsymbol{w}) \mathrm{d} \boldsymbol{w} \\$
上述第一种没有额外的条件，第二种则要求 $\boldsymbol{w}$ 和 $\mathcal{D}$ 独立。

上述 $4$ 个量都要计算一个关于 $\boldsymbol{w}$ 的函数在未规范化的后验概率 $p(\mathcal{D}, \boldsymbol{w})$ 上的期望，而这个期望的求解往往是非常困难的，特别是当 $\boldsymbol{w}$ 的维度很高时。这也是贝叶期学习方法的一个瓶颈所在。

5.1 共轭先验

一个先验 $p(\boldsymbol{w})$ 被称为似然 $p(\mathcal{D} | \boldsymbol{w})$ 的共轭，如果后验概率 $p(\boldsymbol{w}|\mathcal{D})$ 和先验 $p(\boldsymbol{w})$ 是属于同一个分布族的。

当模型分布为各向同性的高斯分布时，各向同性的高斯分布先验（关于均值 $\boldsymbol{\mu}$ ）、伽玛分布先验（关于方差的倒数 $\sigma^{-2}$ ）以及各向同性的高斯伽玛分布先验（同时关于均值和方差）都是共轭先验。

当模型分布为一般的高斯分布时，威尔沙特分布先验（关于均值 $\boldsymbol{\mu}$ 或关于协方差矩阵的逆 $\boldsymbol{\Sigma}^{-1}$ ）以及高斯威尔沙特分布先验都是共轭先验。

当模型似然有一个共轭先验时，贝叶斯学习关于式 $(4) \sim (7)$ 可以得到解析解。

5.2 指数族

一个分布族被称为指数族，如果它可以写成以下的形式：

p(\boldsymbol{x} | \boldsymbol{w}) = p(\boldsymbol{t} | \boldsymbol{\eta}) = e^{\left( \boldsymbol{\eta}^\top \boldsymbol{t} - A(\boldsymbol{\eta}) + B(\boldsymbol{t}) \right)}

其中， $\boldsymbol{t} = \boldsymbol{t}(\boldsymbol{x})$ 是关于随机变量 $\boldsymbol{x}$ 的函数，被称为 $\boldsymbol{x}$ 的充分统计量； $\boldsymbol{\eta} = \boldsymbol{\eta}(\boldsymbol{w})$ 是关于参数 $\boldsymbol{w}$ 的函数，被称为 $\boldsymbol{w}$ 的自然参数。

举例来说，一元高斯分布（属于指数族）的充分统计量 $\boldsymbol{t} = (x, x^2)^\top$ ，自然参数 $\boldsymbol{\eta} = (\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2})^\top$ 。

指数族分布都是乘积封闭的。

5.3 经验贝叶斯学习

在实际场景中，往往使用超参参数化的先验分布。而这些超参 $\boldsymbol{\kappa}$ 可以通过交叉验证等手段进行调整，也可以看作是模型参数直接使用贝叶斯学习方法进行估计。此时模型参数为 $\bar{\boldsymbol{w}} = (\boldsymbol{w}, \boldsymbol{\kappa}, \boldsymbol{z})$ 且 $p(\bar{\boldsymbol{w}}) = p(\boldsymbol{z} | \boldsymbol{w}) p(\boldsymbol{w} | \boldsymbol{\kappa}) p(\boldsymbol{\kappa})$ ， $\boldsymbol{z}$ 为隐变量，则经验贝叶斯学习方法为

\hat{\boldsymbol{\kappa}}^{\mathrm{EBayes}} = \underset{\boldsymbol{\kappa}}{\arg\max} p(\mathcal{D}, \boldsymbol{\kappa}) = \underset{\boldsymbol{\kappa}}{\arg\max} p(\mathcal{D} | \boldsymbol{\kappa}) p(\boldsymbol{\kappa})

其中， $p(\mathcal{D} | \boldsymbol{\kappa}) = \int p(\mathcal{D}, \boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\kappa}) \mathrm{d}\boldsymbol{w} \mathrm{d}\boldsymbol{z}$ 。

在经验贝叶斯学习（EBayes）中，超参 $\boldsymbol{\kappa}$ 是通过最大化边际似然 $p(\mathcal{D} | \boldsymbol{\kappa})$ 来估计得到的。边际似然 $p(\mathcal{D} | \boldsymbol{\kappa})$ 的负对数

F^{\mathrm{Bayes}} = -\log{p(\mathcal{D} | \boldsymbol{\kappa})}

被称为贝叶斯自由能或随机复杂度（或者是 evidence）。因此，最大化边际似然 $p(\mathcal{D} | \boldsymbol{\kappa})$ 等价于最小化贝叶斯自由能。

附录

What does it mean for the uniform prior?
《Variational Bayesian Learning Theory》by Nakajima, S.Watanabe, K.Sugiyama

Technique MachineLearning

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

统计学习方法总结上一篇

相对熵和交叉熵下一篇