权重初始值
隐藏层的激活值受到权重初始值的影响,进而关系到神经网络的学习能否成功,所以权重初始值的设定至关重要。
1. Xavier 初始值
Xavier的论文中提出的设定值, 不仅考虑了前一层的输入节点数量,还考虑了下一层的输出节点数量。
- 在 Caffe 等框架中,对 Xavier 初始值进行了简化,如果前一层的结点数为 ,则初始化值使用标准差为 的高斯分布。
适用激活函数
- sigmoid
- tanh
【注】Xavier初始值是以激活函数是线性函数为前提而推导出来的。因 sigmoid 函数和 tanh 函数左右对称,且中央附近可以视作线性函数,因此适合 Xavier 初始值。
2. He 初始值
He 初始值也称作 ReLu 专用权重初始值。
- 当前一层的结点数为 时,He 初始值使用标准差为 的高斯分布。
适用激活函数
- ReLu
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!