# 贝叶斯学习

## 2. 贝叶斯定理

$\underbrace{p(\boldsymbol{w} | \mathcal{D})}_{\text {posterior}} \underbrace{p(\mathcal{D})}_{\text {marginal}} = \underbrace{p(\mathcal{D}, \boldsymbol{w})}_{\text {joint}} = \underbrace{p(\mathcal{D} | \boldsymbol{w})}_{\text {likelihood}} \underbrace{p(\boldsymbol{w})}_{\text {prior}} \tag{1}$

## 3. 最大似然

$\hat{\boldsymbol{w}}^{\mathrm{ML}} = \arg\max{p(\mathcal{D} | \boldsymbol{w})} \tag{2}$

## 4. 最大后验概率

$\hat{\boldsymbol{w}}^{\mathrm{MAP}} = \arg\max{p(\boldsymbol{w} | \mathcal{D})} = \arg\max{p(\mathcal{D}, \boldsymbol{w})} = \arg\max{p(\mathcal{D} | \boldsymbol{w}) p(\boldsymbol{w})} \tag{3}$

## 5. 贝叶斯学习

• Marginal likelihood（zeroth moment）

$p(\mathcal{D}) = \int p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} \tag{4}$

• Posterior mean（first moment）

$\bar{\boldsymbol{w}} = \mathbb{E}_{p(\boldsymbol{w}|\mathcal{D})} \left[ \boldsymbol{w} \right] = \frac{1}{p(\mathcal{D})} \int \boldsymbol{w} \cdot p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} \tag{5}$

• Posterior covariance（second moment）

$\mathbb{E}_{p(\boldsymbol{w}|\mathcal{D})} \left[ (\boldsymbol{w} - \bar{\boldsymbol{w}})(\boldsymbol{w} - \bar{\boldsymbol{w}})^\top \right] = \frac{1}{p(\mathcal{D})} \int (\boldsymbol{w} - \bar{\boldsymbol{w}})(\boldsymbol{w} - \bar{\boldsymbol{w}})^\top p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} \tag{6}$

• Predictive distribution（expectation of model distribution）

$p(\mathcal{D}^{\mathrm{new}} | \mathcal{D}) = \mathbb{E}_{p(\boldsymbol{w} | \mathcal{D})} \left[ p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) \right] = \frac{1}{p(\mathcal{D})} \int p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) p(\mathcal{D}, \boldsymbol{w}) \mathrm{d} \boldsymbol{w} \tag{7}$

这里有分解有很多版本，每个版本的条件可能有所不同，比如上面给出的版本就要求当给定条件 $\boldsymbol{w}$ 时，$\mathcal{D}^{\mathrm{new}}$$\mathcal{D}$ 独立。另外两种分解如下：

$p(\mathcal{D}^{\mathrm{new}} | \mathcal{D}) = \mathbb{E}_{p(\boldsymbol{w} | \mathcal{D})} \left[ p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) \right] = \frac{1}{p(\mathcal{D})} \int p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}, \mathcal{D}) p(\mathcal{D}, \boldsymbol{w}) \mathrm{d} \boldsymbol{w} \\ p(\mathcal{D}^{\mathrm{new}} | \mathcal{D}) = \mathbb{E}_{p(\boldsymbol{w} | \mathcal{D})} \left[ p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) \right] = \int p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}, \mathcal{D}) p(\boldsymbol{w}) \mathrm{d} \boldsymbol{w} \\$

上述第一种没有额外的条件，第二种则要求 $\boldsymbol{w}$$\mathcal{D}$ 独立。

### 5.1 共轭先验

• 当模型分布为各向同性的高斯分布时，各向同性的高斯分布先验（关于均值 $\boldsymbol{\mu}$）、伽玛分布先验（关于方差的倒数 $\sigma^{-2}$）以及各向同性的高斯伽玛分布先验（同时关于均值和方差）都是共轭先验。
• 当模型分布为一般的高斯分布时，威尔沙特分布先验（关于均值 $\boldsymbol{\mu}$ 或关于协方差矩阵的逆 $\boldsymbol{\Sigma}^{-1}$）以及高斯威尔沙特分布先验都是共轭先验。

### 5.2 指数族

$p(\boldsymbol{x} | \boldsymbol{w}) = p(\boldsymbol{t} | \boldsymbol{\eta}) = e^{\left( \boldsymbol{\eta}^\top \boldsymbol{t} - A(\boldsymbol{\eta}) + B(\boldsymbol{t}) \right)}$

• 指数族分布都是乘积封闭的

### 5.3 经验贝叶斯学习

$\hat{\boldsymbol{\kappa}}^{\mathrm{EBayes}} = \underset{\boldsymbol{\kappa}}{\arg\max} p(\mathcal{D}, \boldsymbol{\kappa}) = \underset{\boldsymbol{\kappa}}{\arg\max} p(\mathcal{D} | \boldsymbol{\kappa}) p(\boldsymbol{\kappa})$

$F^{\mathrm{Bayes}} = -\log{p(\mathcal{D} | \boldsymbol{\kappa})}$