Momentum

1. 简介

Momentum 类似于物理中的冲量的思想,Momentum 算法优化的过程给人的感觉就像是小球在地面上滚动。

2. 原理

tt 次迭代时:

vt=αvt1ηLWt1Wt=Wt1+vt\begin{array}{c} \boldsymbol{v}_t = \alpha \boldsymbol{v}_{t-1} - \eta \frac{\partial L}{\partial \boldsymbol{W}_{t-1}} \\ \boldsymbol{W}_t = \boldsymbol{W}_{t-1} + \boldsymbol{v}_t \end{array}

其中,W\boldsymbol{W} 为需要更新的参数,LL 为损失函数,LW\frac{\partial L}{\partial \boldsymbol{W}}LL 关于 W\boldsymbol{W} 的梯度,η\eta 为学习率,v\boldsymbol{v} 类似于物理上的速度,α\alpha 为动量因子,承担使 v\boldsymbol{v} 逐渐减小的任务,对应于物理上的阻力,通常设为 0.90.9