信息的统计度量 - お前はどこまで見えている

符号约定

符号	说明
$X, Y, \cdots$	随机事件集合/随机变量
$x, y, \cdots$	随机事件集合中的元素/随机变量的取值
$p(x)$	随机事件发生的概率
$p(x \vert y)$	随机事件发生的条件概率
$p(x y), p(x, y)$	随机事件发生的联合概率

概念说明

名称	说明
自信息量	随机事件集合 $X$ 中某一个事件 $x$ 的信息量，表示事件 $x$ 的不确定性
互信息量	随机事件集合 $X$ 中事件 $x$ 包含事件 $y$ 的信息量，表示事件 $x$ 和事件 $y$ 共有的不确定性
熵	随机事件集合 $X$ 中所有事件自信息量的平均值，表示随机事件集合 $X$ 的平均不确定性
互信息	随机事件集合 $X$ 包含随机事件集合 $Y$ 的熵，表示随机事件集合 $X$ 与 $Y$ 共有的平均不确实性

1. 随机事件

1.1 信息量与不确定度

事件发生的概率越大，它发生后提供的信息量就越小；事件发生的概率越小，一旦该事件发生，它发生后提供的信息量就越大。因此，事件 $x$ 的信息量 $I(x)$ 应该是该事件概率的函数

\begin{align*} I(x) = f[p(x)] \tag{1.1} \end{align*}

函数 $I(x)$ 应满足的四大性质：

$f[p(x)]$ 应该是 $p(x)$ 的单调递减函数；
当 $p(x) = 1$ 时， $f[p(x)] = 0$ ；
当 $p(x) = 0$ 时， $f[p(x)] = \infty$ ；
两个独立事件的联合信息量应该等于各自信息量之和。

1.2 自信息量

定义：任何随机事件的自信息量定义为该事件发生概率的对数的负值。假设事件 $x$ 发生的概率为 $p(x)$ ，则其自信息定义为
$\begin{align*} I(x) = -\log_{2} p(x) \tag{1.2} \end{align*}$

自信息量衡量的是随机事件的不确定性。事件的不确定性越大，其自信息量也越大，反之亦然。
性质：式 $(1.2)$ 中定义的自信息满足式 $(1.1)$ 中 $f[p(x)]$ 应当满足的四大性质，即
1. 函数 $I(x)$ 是 $p(x)$ 的递减函数；
2. 当 $p(x) = 1$ 时， $I(x) = 0$ ；
3. 当 $p(x) = 0$ 时， $I(x) = \infty$ ；
4. 两个独立事件的联合信息量等于各自信息量之和
$\begin{array}{c} I(x_1x_2) = -\log_{2} p(x_1x_2) = -\log_{2} p(x_1)p(x_2) = I(x_1) + I(x_2) \end{array}$

单位及换算

	单位
$I(x) = -\log_{2} p(x)$	bit （比特）
$I(x) = -\ln p(x)$	nat （奈特）
$I(x) = -\lg p(x)$	hart （哈特）

$1$ nat = $\log_{2}e$ = $1.443$ bit
$1$ hart = $\log_{2}10$ = $3.32$ bit

1.3 联合自信息量

定义：二维联合集 $XY$ 上的元素 $(x y)$ 的联合自信息量定义为
$\begin{align*} I(x y) = -\log_{2} p(x y) \tag{1.3} \end{align*}$

联合自信息量衡量的是多个事件同时出现的不确定性。

1.4 条件自信息量

定义：事件 $x$ 在事件 $y$ 给定的条件下的条件自信息定义为
$\begin{align*} I(x|y) = -\log_{2} p(x|y) \tag{1.4} \end{align*}$

条件自信息量衡量的是已知事件 $y$ 之后仍然保留的关于 $x$ 的不确定性。

1.5 互信息量

定义：随机事件 $y$ 的出现给出关于事件 $x$ 的信息量定义为二者的互信息量，定义为
$\begin{align*} I(x; y) = \log_{2} \frac{p(x|y)}{p(x)} = \log_2 \frac{p(xy)}{p(x) p(y)} \tag{1.5} \end{align*}$

本身的不确定性，减去知道事件 $y$ 之后仍然保留的不确定性，即由 $y$ 所提供的关于 $x$ 的信息量或由 $y$ 所消除的关于 $x$ 的不确定性，称为事件 $x$ 与 $y$ 的互信息量。
性质：
1. $I(x;y) = I(x) - I(x|y)$ 。
  
  证明： $I(x;y) = \log_{2}{p(x|y) \over p(x)} = \log_{2}{1 \over p(x)} - \log_{2}{1 \over p(x|y)} = I(x) - I(x|y)$
  即互信息量 = 原有不确定性 - 尚存在的不确定性
2. 互易性：由 $y$ 所提供的关于 $x$ 的信息量 = 由 $x$ 所提供的关于 $y$ 的信息量，即 $I(x;y) = I(y;x)$ 。
  
  证明： $I(x;y) = \log_{2}{p(x|y) \over p(x)} = \log_{2}{p(x|y)p(y) \over p(x)p(y)} = \log_{2}{p(xy) \over p(x)p(y)} = \log_{2}{p(y|x) \over p(y)} = I(y;x)$
3. 当事件 $x$ 、 $y$ 统计独立时，互信息量为 0；即两个事件相互独立时，一个事件不能提供另一个事件的任何信息。
  
  证明： $I(x;y) = \log_{2}{p(x|y) \over p(x)} = \log_{2}{p(x) \over p(x)} = 0$
4. 互信息量可正可负。正表示 $y$ 的出现有利于确定 $x$ 的发生；负表示 $y$ 的出现不利于确定 $x$ 的发生。
  
  无论正负，互信息量的绝对值越大， $x$ 和 $y$ 的关系越密切。
5. 互信息量不大于任一事件的自信息量。
  
  证明： $I(x;y) = I(y;x)$
  $I(x;y) = \log_{2}{p(x|y) \over p(x)} \leq \log_{2}{1 \over p(x)} = I(x)$
  $I(y;x) = \log_{2}{p(y|x) \over p(y)} \leq \log_{2}{1 \over p(y)} = I(y)$
单位及换算：同自信息量。

1.6 条件互信息量

定义：联合事件集 $XYZ$ 中，在给定 $z$ 的条件下， $x$ 与 $y$ 之间的互信息量称为条件互信息量，定义为：
$\begin{align*} I(x;y|z) = \log_{2}{p(x|yz) \over p(x|z)} \tag{1.6} \end{align*}$

条件互信息量衡量的是已知了 $z$ 后， $y$ 提供关于 $x$ 的信息量
性质： $I(x;y|z) = I(x;yz) - I(x;z)$ 。

证明： $I(x;y|z) = \log_{2}{p(x|yz) \over p(x|z)} = \log_{2}{p(x|yz)p(x) \over p(x|z)p(x)} = \log_{2}{p(x|yz) \over p(x)} - \log_{2}{p(x|z) \over p(x)} = I(x;yz) - I(x;z)$

2. 离散事件集

离散事件集 $X = {x_1,x_2,\cdots,x_q}$ ，其概率分布表示为：

\begin{array}{c} \left[ \begin{matrix} X \\ P \end{matrix} \right] = \left[ \begin{matrix} x_1 & x_2 & \cdots & x_q \\ p(x_1) & p(x_2) & \cdots & p(x_q) \end{matrix} \right] \end{array}

2.1 熵

假设 $X$ 中的每一个事件的自信息量分别为： $I(x_1) \,\, I(x_2) \cdots I(x_q)$ ，则所有这些自信息量的均值即为 $X$ 的平均自信息量，称为 $X$ 的熵。

定义：离散事件集 $X$ 中，事件的自信息量 $I(x)$ 的数学期望定义为平均自信息量：
$\begin{align*} H(X) = E_X[I(x)] = E_X[-\log_{2}p(x)] = -\sum_X p(x)\log_{2}p(x) \tag{2.1} \end{align*}$
又称作集 $X$ 的信息熵，简称熵， $H(X)$ 又可记作 $H(p_1,p_2,\cdots,p_q)$ 。
性质： $H(X) \geq 0$

证明：源自自信息量的非负性
$\begin{array}{c} H(X) = E_X[I(x)] = \sum_{X} p(x)\log_{2}{1 \over p(x)} \end{array}$
当有且仅有一个 $p(x_i) = 1$ ，其余的 $p(x_j) = 0$ 时， $H(X) = 0$ ，即确定事件集。
单位及换算：同自信息量。

2.2 条件熵

定义：条件自信息量 $I(x|y)$ 的概率均值称为条件熵，定义为：
$\begin{align*} H(X|Y) = E_{XY}[I(x|y)] = \sum_{XY}p(xy)I(x|y) = -\sum_{XY}p(xy)\log_{2}p(x|y) \tag{2.2} \end{align*}$

条件熵衡量的是离散事件集 $X$ 在已知离散事件集 $Y$ 后仍然保留的平均不确定性。

设 $H(X|y) = -\sum_X p(x|y)\log_{2}p(x|y)$ 表示 $y$ 确定时，集合 $X$ 保留的平均不确定性。则
$\begin{array}{c} H(X|Y) = \sum_Y p(y)H(X|y) = -\sum_{XY}p(y)p(x|y)\log_{2}p(x|y) = -\sum_{XY}p(xy)\log_{2}p(x|y) \end{array}$
性质： $H(X | Y) \geq 0$

证明：因为 $H(X | Y) = \sum_Y p(y) H(X | y)$ ，且 $H(X | y) \geq 0$ 。

若 $X$ 表示输入， $Y$ 表示输出，则 $H(X|Y)$ 表示信道损失。若 $X$ 与 $Y$ 独立，易得 $H(X|Y) = H(X)$ 。

2.3 联合熵

定义：联合事件集 $XY$ 上，联合自信息量 $I(xy)$ 的概率均值称为联合熵，定义式如下：
$\begin{align*} H(XY) = E_{XY}[I(xy)] = \sum_{XY}p(xy)I(xy) = -\sum_{XY}p(xy)\log_{2}p(xy) \tag{2.3} \end{align*}$
联合熵又称为共熵，也可以记为 $H(X, Y)$ 。

推广：设 $X_1,X_2,\cdots,X_k$ 为一组离散事件集合，则 $X_1,X_2,\cdots,X_k$ 的联合熵定义为：
$\begin{array}{c} H(X_1,X_2,\cdots,X_k) = -\sum_{X_1, X_2, \cdots, X_k} p(x_1,x_2,\cdots,x_k)\log_{2}p(x_1,x_2,\cdots,x_k) \end{array}$

2.4 互信息

定义：离散事件集合 $X$ 包含离散事件 $Y$ 的平均信息量称为平均互信息量，简称互信息，定义为
$\begin{align*} I(X;Y) = E_{XY}[I(x; y)] = -\sum_{XY} p(x y) \log_{2} \frac{p(x|y)}{p(x)} = -\sum_{XY} p(x y) \log_2 \frac{p(xy)}{p(x) p(y)} \tag{2.4} \end{align*}$
性质：
1. 非负性： $I(X;Y) \geq 0$ ；
  
  证明： $I(X;Y) = H(X) - H(X|Y) \geq 0$ （证明见下文）
2. 互易性（对称性）：从集合 $Y$ 中获得的关于 $X$ 的信息量等于从集合 $X$ 中获得的关于 $Y$ 的信息量，即 $I(X;Y) = I(Y;X)$ ；
  
  证明： $I(X;Y) = \sum_{XY}p(x y)I(x;y) = \sum_{YX}p(y x)I(y;x) = I(Y;X)$
3. 互信息与各类熵的关系： $I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X,Y)$ （证明见下文）
  - 当 $Y$ 决定 $X$ 时，即 $H(X|Y) = 0$ ，有 $I(X;Y) = H(X)$ ；
  - 当 $X$ 决定 $Y$ 时，即 $H(Y|X) = 0$ ，有 $I(X;Y) = H(Y)$ ；
  - 当 $X$ 与 $Y$ 相互独立时， $H(X|Y) = H(X)$ ，即 $I(X;Y) = 0$ 。
4. 极值性： $I(X; Y) \leq \min\{(H(x), H(Y))\}$ ；
  
  证明：因为 $I(X;Y) = H(X) - H(X|Y)$ ，且 $H(X|Y) \geq 0$ 。
5. 凸函数性：互信息是先验概率 $p(x)$ 的上凸函数，是前向转移概率 $p(y|x)$ 的下凸函数。
  - 当信道固定时，选择不同的信源（其概率分布不同），在信道输出端接收到每个符号获得的平均信息量是不同的；当信源固定时，选择不同的信道（其转移概率分布不同）来传输同一信源符号时，在信道输出端接收到每个符号获得的平均信息量是不同的。
  - 对于一个固定的信源，一定存在着一种信源，使得输出端获得的平均信息量最大；对于一个固定的信源，一定存在着一种最差的信道，使得输出端获得的平均信息量最小。

3. 信息统计量的相关性质

3.1 熵函数的数学特性

对称性：集合中各分量的次序任意变更时，熵值不变，即
$\begin{gather*} H(p_1,p_2) = H(p_2,p_1) \\ H(p_1,p_2,\cdots,p_n) = H(p_2,p_1,\cdots,p_n) = H(p_n,p_1,\cdots,p_{n-1}) \end{gather*}$

证明： $H(X) = -\sum_{i=1}^n p(x_i)\log_{2}p(x_i)$

换句话说，熵是有局限性的。因为它仅与随机事件集合的总体结构有关，没有考虑随机事件间的顺序，抹杀了个体的特性。
非负性： $H(X) \geq 0$ ；

证明：源自自信息量的非负性
$\begin{array}{c} H(X) = E_X[I(x)] = \sum_{X} p(x)\log_{2}{1 \over p(x)} \end{array}$
当有且仅有一个 $p(x_i) = 1$ ，其余的 $p(x_j) = 0$ 时， $H(X) = 0$ ，即确定事件集。
扩展性： $\lim_{\varepsilon \rightarrow 0} H_{q+1}(p_1,p_2,\cdots,p_q - \varepsilon, \varepsilon) = H_q(p_1,p_2,\cdots,p_q)$ ；

证明： $x \log_{2} x$ 在 $[0, \infty)$ 上的连续性， $\lim_{x \rightarrow 0} x \log_{2}x = 0$

也即是说，随机事件集合 $X$ 有 $q$ 个事件，随机事件集合 $Y$ 比 $X$ 仅仅是多了一个概率接近 $0$ 的事件，则两个集合的熵值一样。换句话说，在随机事件集合中，若一个事件发生的概率比其它事件发生的概率小得多时，则这个事件对于集合的熵值的贡献可以忽略。
可加性：设 $X$ 和 $Y$ 为两个互相关联的随机事件集合， $X$ 的概率分布为 $\{ p_1,p_2,\cdots,p_m\}$ ， $Y$ 的概率分布为 $\{q_1,q_2,\cdots,q_n\}$ ，则

$\begin{array}{c} H(XY) = H(X) + H(Y|X) = H(Y) + H(X|Y) \end{array}$

证明：
$\begin{array}{rcl} H(XY) & = & - \sum_{XY}p(xy)\log_{2}p(xy) \\ & = & - \sum_{XY}p(xy)\log_{2}p(y|x)p(x) \\ & = & - \sum_{X}p(x)\log_{2}p(x) - \sum_{XY}p(xy)\log_{2}p(y|x) \\ & = & H(X) + H(Y|X) \\ & = & - \sum_{XY}p(xy)\log_{2}p(x|y)p(y) \\ & = & - \sum_{Y}p(y)\log_{2}p(y) - \sum_{XY}p(xy)\log_{2}p(x|y) \\ & = & H(Y) + H(X|Y) \end{array}$
当 $X$ 、 $Y$ 相互独立时， $H(XY) = H(X) + H(Y)$ 。

可以将可加性推广到多个随机事集合：
1. 熵的可加性可推广到多个随机事件集合的情况：
  $\begin{array}{c} H(X_1 X_2 \cdots X_N) = H(X_1) + H(X_2 | X_1) + H(X_3|X_1 X_2) + \cdots + H(X_N | X_1 X_2 \cdots X_{N-1}) \end{array}$
2. 当这些随机变量统计独立时：
  $\begin{array}{c} H(X_1 X_2 \cdots X_N) = H(X_1) + H(X_2) + \cdots + H(X_N) \end{array}$
极值性： $H(X) = H(p_1,p_2,\cdots,p_n) \leq H(\frac{1}{n},\frac{1}{n},\cdots,\frac{1}{n}) = \log_{2}n$ ；因此，各事件等概率发生时，熵最大（最大熵定理）。

证明： $H(X) = -\sum_X p(x)\log_{2}p(x)$ ，而 $f(x) = -x\log_{2}x$ 函数在区间 $[0,1]$ 上为严格上凸函数（证明见下文上凸性），故由琴生不等式（参见凸函数及其性质）可知：
$\begin{array}{rcl} H(X) & = & E[I(x)] \\ & = & E[f[p(x)]] \\ & \leq & f[E[P(x_i)]] \\ & = & - \log_{2}{1 \over n} \\ & = & \log_{2}n \end{array}$
等号成立当且仅当
$\begin{array}{c} p(x_1) = p(x_2) = \cdots = p(x_n) = {1 \over n} \end{array}$
凸函数定义及相关性质参见凸函数及其性质。
确定性：集合中只要有一个事件为必然事件，则其余事件为不可能事件，此时熵为 $0$ 。

$\begin{array}{c} H(1,0) = H(1,0,0) = \cdots = H(1,0,\cdots,0) = 0 \end{array}$
上凸性： $H(p_1,p_2,\cdots,p_q)$ 是概率分布 $(p_1,p_2,\cdots,p_q)$ 上的严格上凸函数。
证明：设 $p$ 和 $p^{'}$ 分别为两个概率分布， $p = p^{'}$ 且 $0 < \alpha < 1$ ，则需证明

$\begin{array}{c} H[\alpha p + ( 1-\alpha )p^{'}] > \alpha H(p) + ( 1 - \alpha )H(p^{'}) \end{array}$

由于函数 $f(x) = -x \log_{2} x$ 在区间 $[0,1]$ 是严格上凸函数，证明如下：
- 对于 $0 < \alpha < 1$ ，任取 $0 \leq x_1, x_2 \leq 1$ 且 $x_1 = x_2$ ，不妨假设 $0 \leq x_1 < x_2 \leq 1$ ，要证
  
  $\begin{array}{rcl} & & f[\alpha x_1 + (1-\alpha )x_2] - \alpha f(x_1) - (1 - \alpha )f(x_2) \\ & = & -(\alpha x_1 + (1-\alpha )x_2)\log_{2}(\alpha x_1 + (1-\alpha )x_2) + \alpha x_1 \log_{2}x_1 + (1-\alpha )x_2 \log_{2}x_2 \\ & > & 0 \end{array}$
  1. 若 $x_1 = 0$ ，则上式等价于
    $\begin{array}{rcl} & & -(1-\alpha )x_2 \log_{2}((1-\alpha )x_2) + (1-\alpha )x_2 \log_{2}x_2 > 0 \\ & \Leftrightarrow & (1-\alpha )x_2 \log_{2}{1 \over (1-\alpha )} > 0 \end{array}$
    易知对于 $0 < \alpha < 1$ 恒成立。
  2. 若 $x_1 = 0$ ，则上式等价于
    $\begin{array}{rcl} & & -\alpha x_1 \log_{2}(\alpha + (1-\alpha ){x_2 \over x_1}) - (1-\alpha )x_2 \log_{2}(\alpha {x_1 \over x_2} + (1-\alpha )) > 0 \\ & \Leftrightarrow & \alpha \log_{2}(\alpha + (1-\alpha ){x_2 \over x_1}) + (1-\alpha ){x_2 \over x_1}\log_{2}(\alpha {x_1 \over x_2} + (1 - \alpha )) < 0 \end{array}$
    令 $t = {x_2 \over x_1}$ ，则 $t > 1$ ，上式等价于
    $\begin{array}{c} \alpha \log_{2}(\alpha + (1-\alpha )t) + (1 - \alpha )t \log_{2}(\alpha {1 \over t} + (1 - \alpha )) < 0 \end{array}$
    令 $h(t) = \alpha \log_{2}(\alpha + (1 - \alpha )t) + (1 - \alpha )t \log_{2}(\alpha {1 \over t} + (1 - \alpha ))$ ， $t > 1$ ，则
    $\begin{array}{c} h^{'}(t) = (1 - \alpha )\log_{2}(\alpha {1 \over t} + (1 - \alpha )) \end{array}$
    易知 $h^{'}(t)$ 在 $t > 1$ 上递减，故 $h^{'}(t) < h^{'}(1) = 0$ 。所以 $h(t)$ 在 $t > 1$ 上递减，因此 $h(t) < h(1) = 0 + 0 = 0$ 。即
    $\begin{array}{c} \alpha \log_{2}(\alpha + (1 - \alpha )t) + (1 - \alpha )t \log_{2}(\alpha {1 \over t} + （1 - \alpha )) < 0 \end{array}$
    综上，函数 $f(x) = -x\log_{2}x$ 在区间 $[0,1]$ 上是严格上凸函数。
证明了 $f(x) = -x \log_{2} x$ 为严格上凸函数后，回到证明 $H(p_1,p_2,\cdots,p_q)$ 的上凸性。由于 $0 < \alpha < 1$ ， $\sum_{i=1}^n p(x_i) = 1$ ， $\sum_{i=1}^n p^{'}(x_i) = 1$ ：

$\begin{array}{rcl} H(p) & = & -\sum_{i=1}^n p(x_i)\log_{2}p(x_i) \\ H(p^{'}) & = & -\sum_{i=1}^n p^{'}(x_i) \log_{2} p^{'}(x_i) \\ H(\alpha p + (1-\alpha )p^{'}) & = & -\sum_{i=1}^n (\alpha p(x_i) + (1-\alpha )p^{'}(x_i))\log_{2}(\alpha p(x_i) + (1-\alpha )p^{'}(x_i)) \end{array}$

由函数 $f(x) = -x\log_{2}x$ 的严格上凸性和凸函数及其性质可知， $\forall i \in \{ 1,2,\cdots, n\}$ ，都有：

$\begin{array}{rcl} & & -(\alpha p(x_i) + (1-\alpha )p^{'}(x_i)\log_{2}((\alpha p(x_i) + (1-\alpha )p^{'}(x_i)) \\ & \geq & -\alpha p(x_i)\log_{2}p(x_i) - (1-\alpha )p^{'}(x_i)\log_{2}p^{'}(x_i) \end{array}$

成立，且等号成立当且仅当 $p(x_i) = p^{'}(x_i)$ 。由假设可知， $p =q p^{'}$ ，故

$\begin{array}{rcl} & & -\sum_{i=1}^n (\alpha p(x_i) + (1-\alpha )p^{'}(x_i)\log_{2}((\alpha p(x_i) + (1-\alpha )p^{'}(x_i)) \\ & > & -\sum_{i=1}^n(\alpha p(x_i)\log_{2}p(x_i) + (1-\alpha )p^{'}(x_i)\log_{2}p^{'}(x_i)) \end{array}$

也即

$H[\alpha p + (1 - \alpha )p^{'}] > \alpha H(p) + (1-\alpha )H(p^{'})$

故命题得证。

3.2 各种熵之间的关系

$H(XY) = H(X) + H(Y|X) = H(Y) + H(X|Y)$
$H(X|Y) \leq H(X)$ ，等式成立当且仅当 $X$ 和 $Y$ 相互独立

证明：
$\begin{array}{rcl} H(X|Y) & = & -\sum_{XY}p(xy)\log_{2}p(x|y) \\ & = & -\sum_{XY}p(xy)\log_{2}{p(xy)p(x) \over p(y)p(x)} \\ & = & H(X) -\sum_{XY}p(xy)\log_{2}{p(xy) \over p(x) p(y)} \\ & = & H(X) + \sum_{XY}p(xy)\log_{2}{p(x)p(y) \over p(xy)} \\ & \leq & H(X) \end{array}$
$H(XY) \leq H(X) + H(Y)$

3.3 加权熵

定义：离散事件集 $X = {x_1,x_2,\cdots,x_q}$ ，其概率分布和权重分布表示为：

\begin{array}{c} \left[ \begin{matrix} X \\ P \\ W \end{matrix} \right] = \left[ \begin{matrix} x_1 & x_2 & \cdots & x_n \\ p(x_1) & p(x_2) & \cdots & p(x_n) \\ w_1 & w_2 & \cdots & w_n \end{matrix} \right] \end{array}

其中， $w_i \geq 0$ 。则加权熵定义为：

\begin{array}{c} H_W(X) = -\sum_{i=1}^n w_i p(x_i) \log_{2} p(x_i) \end{array}

3.4 其它熵

相对熵和交叉熵

Technique InformationTheory

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

Padding策略上一篇

PCA模型下一篇