规范化、归一化、标准化、中心化

符号说明:本文中 XX 表示原数据,X~\tilde{X} 表示处理后的数据,μ,σ2\mu, \sigma^2 分别表示 XX 的均值和方差。

1. 规范化、归一化

规范化(Normalization)是指将不同变化范围的值映射到固定范围中,常见的是 [0,1][0, 1],此时也称为归一化。规范化将数据从有量纲变为无量纲,方便不同单位和量级之间的数据进行处理。

因此,在一般的表述中,规范化和归一化是等价的(且往往都是指 Min-max 规范化),英文统一用 Normalization(然而深度学习中的 Batch Normalization 似乎也用错术语了,应该用 Batch Standardization)。

1.1 Min-max 规范化

\begin{align*} \tilde{X} = {X - X_{\min} \over X_{\max} - X_{\min}} \tag{1} \end{align*}

1.2 Mean 规范化

\begin{align*} \tilde{X} = {X - \mu \over X_{\max} - X_{\min}} \tag{2} \end{align*}

2. 标准化

标准化(Standardization)是指将原始数据分布变换为均值为 00,方差为 11 的数据分布。标准化也是一种将数据从有量纲变为无量纲的手段。

常见的标准化为 Z-Score 标准化,因此,在一般的表述中,标准化特指 Z-Score 标准化。

2.1 Z-Score 标准化

\begin{align*} \tilde{X} = {X - \mu \over \sigma} \tag{3} \end{align*}

3. 中心化

中心化(Zero-centered 或 Mean-subtraction)是指将将原数据分布减去其均值,使处理后的数据分布的均匀为 00

X~=Xμ\begin{array}{c} \tilde{X} = X - \mu \end{array}

附录