1. 简介
贝叶斯学习(Baysian Learning)是基于贝叶斯定理的一个推断方法。其考虑的场景为:我们观测到一个数据集合 D,其服从条件分布 p(D∣w)(我们称 p(D∣w) 为模型分布),其中模型参数 w 是未知的(当看作是 w 的函数时,p(D∣w) 也被称为模型似然)。尽管 w 是未知的,但先验分布 p(w) 往往是已知的,而我们要求解的便是 w。
2. 贝叶斯定理
贝叶斯学习是基于联合分布 p(D,w) 的基本分解公式,如下所示:
posteriorp(w∣D)marginalp(D)=jointp(D,w)=likelihoodp(D∣w)priorp(w)(1)
其中,边际分布 p(D)=∫Wp(D,w)dw=∫Wp(D∣w)p(w)dw,W 是模型参数 w 的域。而后验分布 p(w∣D)=p(D)p(D,w)∝p(D,w),其与联合分布 p(D,w) 只相差一个比例系数(这是因为 p(D) 对于 w 来说是一个常数),换句话说,联合分布是未规范的后验分布。
注意,如果 W 是离散的,则上述公式的密度积分应该替换成概率求和。
3. 最大似然
最大似然(ML)方法通过最大化似然概率来估计未知参数 w:
w^ML=argmaxp(D∣w)(2)
4. 最大后验概率
最大后验概率(MAP)方法通过最大化后验概率来估计未知参数 w:
w^MAP=argmaxp(w∣D)=argmaxp(D,w)=argmaxp(D∣w)p(w)(3)
可以看到,当先验概率 p(w) 服从均匀分布时,p(w)∝1,此时称先验概率 p(w) 为 uniform prior 或 flat prior。
求解 MAP 可以使用 EM 算法。
5. 贝叶斯学习
使用贝叶斯学习方法,要计算至少以下一个量:
-
Marginal likelihood(zeroth moment)
p(D)=∫p(D,w)dw(4)
-
Posterior mean(first moment)
wˉ=Ep(w∣D)[w]=p(D)1∫w⋅p(D,w)dw(5)
-
Posterior covariance(second moment)
Ep(w∣D)[(w−wˉ)(w−wˉ)⊤]=p(D)1∫(w−wˉ)(w−wˉ)⊤p(D,w)dw(6)
-
Predictive distribution(expectation of model distribution)
p(Dnew∣D)=Ep(w∣D)[p(Dnew∣w)]=p(D)1∫p(Dnew∣w)p(D,w)dw(7)
这里有分解有很多版本,每个版本的条件可能有所不同,比如上面给出的版本就要求当给定条件 w 时,Dnew 与 D 独立。另外两种分解如下:
p(Dnew∣D)=Ep(w∣D)[p(Dnew∣w)]=p(D)1∫p(Dnew∣w,D)p(D,w)dwp(Dnew∣D)=Ep(w∣D)[p(Dnew∣w)]=∫p(Dnew∣w,D)p(w)dw
上述第一种没有额外的条件,第二种则要求 w 和 D 独立。
上述 4 个量都要计算一个关于 w 的函数在未规范化的后验概率 p(D,w) 上的期望,而这个期望的求解往往是非常困难的,特别是当 w 的维度很高时。这也是贝叶期学习方法的一个瓶颈所在。
5.1 共轭先验
一个先验 p(w) 被称为似然 p(D∣w) 的共轭,如果后验概率 p(w∣D) 和先验 p(w) 是属于同一个分布族的。
- 当模型分布为各向同性的高斯分布时,各向同性的高斯分布先验(关于均值 μ)、伽玛分布先验(关于方差的倒数 σ−2)以及各向同性的高斯伽玛分布先验(同时关于均值和方差)都是共轭先验。
- 当模型分布为一般的高斯分布时,威尔沙特分布先验(关于均值 μ 或关于协方差矩阵的逆 Σ−1)以及高斯威尔沙特分布先验都是共轭先验。
当模型似然有一个共轭先验时,贝叶斯学习关于式 (4)∼(7) 可以得到解析解。
5.2 指数族
一个分布族被称为指数族,如果它可以写成以下的形式:
p(x∣w)=p(t∣η)=e(η⊤t−A(η)+B(t))
其中,t=t(x) 是关于随机变量 x 的函数,被称为 x 的充分统计量;η=η(w) 是关于参数 w 的函数,被称为 w 的自然参数。
举例来说,一元高斯分布(属于指数族)的充分统计量 t=(x,x2)⊤,自然参数 η=(σ2μ,−2σ21)⊤。
5.3 经验贝叶斯学习
在实际场景中,往往使用超参参数化的先验分布。而这些超参 κ 可以通过交叉验证等手段进行调整,也可以看作是模型参数直接使用贝叶斯学习方法进行估计。此时模型参数为 wˉ=(w,κ,z) 且 p(wˉ)=p(z∣w)p(w∣κ)p(κ),z 为隐变量,则经验贝叶斯学习方法为
κ^EBayes=κargmaxp(D,κ)=κargmaxp(D∣κ)p(κ)
其中,p(D∣κ)=∫p(D,w,z∣κ)dwdz。
在经验贝叶斯学习(EBayes)中,超参 κ 是通过最大化边际似然 p(D∣κ) 来估计得到的。边际似然 p(D∣κ) 的负对数
FBayes=−logp(D∣κ)
被称为贝叶斯自由能或随机复杂度(或者是 evidence)。因此,最大化边际似然 p(D∣κ) 等价于最小化贝叶斯自由能。
附录