规范化、归一化、标准化、中心化
符号说明:本文中 表示原数据, 表示处理后的数据, 分别表示 的均值和方差。
1. 规范化、归一化
规范化(Normalization)是指将不同变化范围的值映射到固定范围中,常见的是 ,此时也称为归一化。规范化将数据从有量纲变为无量纲,方便不同单位和量级之间的数据进行处理。
因此,在一般的表述中,规范化和归一化是等价的(且往往都是指 Min-max 规范化),英文统一用 Normalization(然而深度学习中的 Batch Normalization 似乎也用错术语了,应该用 Batch Standardization)。
1.1 Min-max 规范化
\begin{align*} \tilde{X} = {X - X_{\min} \over X_{\max} - X_{\min}} \tag{1} \end{align*}
1.2 Mean 规范化
\begin{align*} \tilde{X} = {X - \mu \over X_{\max} - X_{\min}} \tag{2} \end{align*}
2. 标准化
标准化(Standardization)是指将原始数据分布变换为均值为 ,方差为 的数据分布。标准化也是一种将数据从有量纲变为无量纲的手段。
常见的标准化为 Z-Score 标准化,因此,在一般的表述中,标准化特指 Z-Score 标准化。
2.1 Z-Score 标准化
\begin{align*} \tilde{X} = {X - \mu \over \sigma} \tag{3} \end{align*}
3. 中心化
中心化(Zero-centered 或 Mean-subtraction)是指将将原数据分布减去其均值,使处理后的数据分布的均匀为 。
附录
- 规范化(包含归一化)、标准化、中心化、BN、正则化的区别
- 《机器学习》by 周志华
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!