Git常见问题 1. remote:error:File:××× exceeds 100.00 MB. ⋯\cdots⋯ remote:Please remove the file from history and try again. 问题:上传文件超出远程仓库的限制 解决: 方案一:撤销上一次 commit,会退到上一次 commit 前的状态,然后移除超出限制的文件,重新上传。 1git reset 2020-10-10 Technique Git Technique Git
几何矩 1. 定义 1.1 几何矩 几何矩定义于基本集 {xpyq}\{x^p y^q\}{xpyq},则 p+qp+qp+q 阶二维几何矩用 mpqm_{pq}mpq 表示,其表达式为: mpq=∬ζxpyqf(x,y)dxdy\begin{array}{c} m_{pq} = \underset{\zeta}{\iint} x^p y^q f(x,y) dxdy \end{array} mpq=ζ 2020-10-10 Technique Math Theory 图像矩 Technique 数学 Math Theory 图像矩
矩阵微分布局 【注】参考邱锡鹏《神经网络与深度学习》。 1. 简介 在数学中, 矩阵微积分是多元微积分的一种特殊表达,尤其是在矩阵空间上进行讨论的时候。它把单个函数对多个变量或者多元函数对单个变量的偏导数写成向量和矩阵的形式,使其可以被当成一个整体被处理。 2. 偏导数 矩阵微积分的表示通常有两种符号约定: 分子布局(Numerator Layout) 分母布局(Denominator Layout) 两者 2020-10-03 Technique Math Theory 矩阵 Technique Math Theory 数学理论 矩阵
过拟合 1. 简介 机器学习的目标是提高泛化能力,即便是没有包含在训练数据里的未观测数据,也希望模型可以进行正确的识别。而机器学习问题中经常会出现过拟合的问题,即只能拟合训练数据,但不能很好地拟合不包含在训练数据中的其他数据的状态。 2. 原因 发生过拟合的原因,主要有以下两个。 模型拥有大量参数、表现力强。 训练数据少。 3. 解决 3.1 权值衰减 该方法通过在学习的过程中对大的权重进行惩罚,来抑 2020-10-02 Technique DeepLearning Technique DeepLearning 深度学习
BatchNormalization 1. 简介 Batch Norm(Batch Normalization)是以进行时学习的 mini-batch 为单位,按 mini-batch 进行正规化(即就是进行使数据分布的均值为 0、方差为 1)。通过将这个处理插入到激活函数的前面(或者后面),可以减小数据分布的偏向。 2. 实现 考虑 mini-batch 的 mmm 个输入样本数据 {x1,x2,⋯ ,xm}\{x_1,x_2,\c 2020-10-02 Technique DeepLearning Technique DeepLearning 深度学习
权重初始值 隐藏层的激活值受到权重初始值的影响,进而关系到神经网络的学习能否成功,所以权重初始值的设定至关重要。 1. Xavier 初始值 Xavier的论文中提出的设定值, 不仅考虑了前一层的输入节点数量,还考虑了下一层的输出节点数量。 在 Caffe 等框架中,对 Xavier 初始值进行了简化,如果前一层的结点数为 nnn,则初始化值使用标准差为 1n\frac{1}{\sqrt{n}}n1 的 2020-10-02 Technique DeepLearning Technique DeepLearning 深度学习
AdaGrad 1. 简介 AdaGrad 算法是借鉴 ℓ2\ell_2ℓ2 正则化的思想,每次迭代时自适应地调整每个参数的学习率。 2. 原理 第 ttt 次迭代时: ht=ht−1+∂L∂Wt−1⊙∂L∂Wt−1Wt=Wt−1−η1ht+ε∂L∂Wt−1\begin{array}{c} \boldsymbol{h}_t = \boldsymbol{h}_{t-1} + \frac{\partial L}{\ 2020-10-02 Technique DeepLearning 优化算法 Technique DeepLearning 深度学习 优化算法
Nesterov 1. 简介 Nesterov 加速梯度算法是一种对 Momentum 动量法的改进。 2. 原理 第 ttt 次迭代时: W^t=Wt−1+αΔWt−1Wt=Wt^−η∂L∂W^t\begin{array}{c} \hat{\boldsymbol{W}}_t = \boldsymbol{W}_{t-1} + \alpha \Delta \boldsymbol{W}_{t-1} \\ \boldsy 2020-10-02 Technique DeepLearning 优化算法 Technique DeepLearning 深度学习 优化算法
Adam 1. 简介 Adam 算法可以看作动量法和 RMSprop 算法的结合,不但使用动量作为参数更新方向,而且可以自适应调整学习率。 2. 原理 第 ttt 次迭代时: 一方面计算梯度平方的指数加权平均: Gt=β2Gt−1+(1−β2)∂L∂Wt−1⊙∂L∂Wt−1\begin{array}{c} \boldsymbol{G}_t = \beta_2 \boldsymbol{G}_{t-1} + 2020-10-02 Technique DeepLearning 优化算法 Technique DeepLearning 深度学习 优化算法
Momentum 1. 简介 Momentum 类似于物理中的冲量的思想,Momentum 算法优化的过程给人的感觉就像是小球在地面上滚动。 2. 原理 第 ttt 次迭代时: vt=αvt−1−η∂L∂Wt−1Wt=Wt−1+vt\begin{array}{c} \boldsymbol{v}_t = \alpha \boldsymbol{v}_{t-1} - \eta \frac{\partial L}{\par 2020-10-02 Technique DeepLearning 优化算法 Technique DeepLearning 深度学习 优化算法