凸函数及其性质

1. 定义

1.1 上凸函数

  • 如果对任意 x1x_1x2x_2 总有 f[αx1+(1α)x2]αf(x1)+(1α)f(x2)f[\alpha x_1 + (1 - \alpha )x_2] \geq \alpha f(x_1) + (1 - \alpha )f(x_2),其中 0α10 \leq \alpha \leq 1,则称 f(x)f(x)上凸函数

  • 如果对任意 x1x_1x2x_2x1x2x_1 \ne x_2,总有 f[αx1+(1α)x2]>αf(x1)+(1α)f(x2)f[\alpha x_1 + (1 - \alpha )x_2] \gt \alpha f(x_1) + (1 - \alpha )f(x_2),其中 0<α<10 \lt \alpha \lt 1,则称 f(x)f(x)严格上凸函数

1.2 下凸函数

  • 如果对任意 x1x_1x2x_2 总有 f[αx1+(1α)x2]αf(x1)+(1α)f(x2)f[\alpha x_1 + (1 - \alpha )x_2] \leq \alpha f(x_1) + (1 - \alpha )f(x_2),其中 0α10 \leq \alpha \leq 1,则称 f(x)f(x)下凸函数

  • 如果对任意 x1x_1x2x_2x1x2x_1 \ne x_2,总有 f[αx1+(1α)x2]<αf(x1)+(1α)f(x2)f[\alpha x_1 + (1 - \alpha )x_2] \lt \alpha f(x_1) + (1 - \alpha )f(x_2),其中 0<α<10 \lt \alpha \lt 1,则称 f(x)f(x)严格下凸函数

2. 琴生(Jenson)不等式

  • 对于上凸函数,f(E[X])E[f(x)]f(E[X]) \geq E[f(x)]k=1qλkf(xk)f(k=1qλkxk)\displaystyle \sum_{k=1}^q \lambda_k f(x_k) \leq f(\sum_{k=1}^q \lambda_k x_k) ,其中 λ1,λ2,,λq\lambda_1,\lambda_2,\cdots,\lambda_q 为正实数(或非负实数,后者去除无影响的 λi=0\lambda_i = 0 的项即为前者,故二者等价)且 k=1qλk=1\displaystyle \sum_{k=1}^q \lambda_k = 1;对于严格上凸函数,上述等号成立当且仅当 x1=x2==xqx_1 = x_2 = \cdots = x_q

  • 对于下凸函数,f(E[X])E[f(x)]f(E[X]) \leq E[f(x)]k=1qλkf(xk)f(k=1qλkxk)\displaystyle \sum_{k=1}^q \lambda_k f(x_k) \geq f(\sum_{k=1}^q \lambda_k x_k) ,其中 λ1,λ2,,λq\lambda_1,\lambda_2,\cdots,\lambda_q 为正实数(或非负实数,后者去除无影响的 λi=0\lambda_i = 0 的项即为前者,故二者等价)且 k=1qλk=1\displaystyle \sum_{k=1}^q \lambda_k = 1;对于严格下凸函数,上述等号成立当且仅当 x1=x2==xqx_1 = x_2 = \cdots = x_q

\downarrow 证明过程如下 \downarrow

2.1 上凸函数

证明:因为 λi\lambda_i 均为正实数,故有
  f(k=1qλkxk)=f(λ1x1+k=2qλkk=2qλkxkk=2qλk)λ1f(x1)+k=2qλkf(k=2qλkxkk=2qλk)\displaystyle f( \sum_{k=1}^q \lambda_k x_k) = f(\lambda_1 x_1 + \sum_{k=2}^q \lambda_k {\sum_{k=2}^q \lambda_k x_k \over \sum_{k=2}^q \lambda_k}) \geq \lambda_1 f(x_1) + \sum_{k=2}^q \lambda_k \cdot f({\sum_{k=2}^q \lambda_k x_k \over \sum_{k=2}^q \lambda_k})
        =λ1f(x1)+k=2qλkf(λ2k=2qλkx2+k=3qλkk=2qλkk=3qλkxkk=3qλk)\displaystyle = \lambda_1 f(x_1) + \sum_{k=2}^q \lambda_k \cdot f({\lambda_2 \over \sum_{k=2}^q \lambda_k} x_2 + {\sum_{k=3}^q \lambda_k \over \sum_{k=2}^q \lambda_k} \cdot {\sum_{k=3}^q \lambda_k x_k \over \sum_{k=3}^q \lambda_k})
        λ1f(x1)+λ2f(x2)+k=3qλkf(k=3qλkxkk=3qλk)\displaystyle \geq \lambda_1 f(x_1) + \lambda_2 f(x_2) + \sum_{k=3}^q \lambda_k \cdot f({\sum_{k=3}^q \lambda_k x_k \over \sum_{k=3}^q \lambda_k})
        k=1qλkf(xk)\displaystyle \geq \cdots \geq \sum_{k=1}^q \lambda_k f(x_k)

2.2 严格上凸函数

证明由定义可知,对于严格上凸函数,f[αx1+(1α)x2]αf(x1)+(1α)f(x2)f[\alpha x_1 + (1 - \alpha )x_2] \geq \alpha f(x_1) + (1 - \alpha )f(x_2) 等号成立时当且仅当 x1=x2x_1 = x_2 。而根据上文对于上凸函数对于 k=1qλkf(xk)f(k=1qλkxk)\displaystyle \sum_{k=1}^q \lambda_k f(x_k) \leq f(\sum_{k=1}^q \lambda_k x_k) 不等式推导过程可知,若上凸函数为严格上凸函数,则第一个 \geq 处等号成立当且仅当:x1=k=2qλkxkk=2qλkx_1 = {\sum_{k=2}^q \lambda_k x_k \over \sum_{k=2}^q \lambda_k};第二个 \geq 处等号成立当且仅当:x2=k=3qλkxkk=3qλkx_2 = {\sum_{k=3}^q \lambda_k x_k \over \sum_{k=3}^q \lambda_k}\cdots ;第 q1q-1\geq 处等号成立当且仅当:xq1=k=qqλkxkk=qqλq=xqx_{q-1} = {\sum_{k=q}^q \lambda_k x_k \over \sum_{k=q}^q \lambda_q} = x_q 。所有等号都成立则以上条件都需满足,对以上条件反向推导可得:xq=xq1x_q = x_{q-1}xq2=k=q1qλkxkk=q1qλk=λq1xq1+λqxqλq1+λq=xq1x_{q-2} = {\sum_{k=q-1}^q \lambda_k x_k \over \sum_{k=q-1}^q \lambda_k} = {\lambda_{q-1} x_{q-1} + \lambda_{q} x_q \over \lambda_{q-1} + \lambda_{q}} = x_{q-1}\cdotsx1=x2x_1 = x_2 。即

k=1qλkf(xk)f(k=1qλkxk)\displaystyle \sum_{k=1}^q \lambda_k f(x_k) \leq f(\sum_{k=1}^q \lambda_k x_k) 等号成立当且仅当 x1=x2==xqx_1 = x_2 = \cdots = x_q

2.3 下凸函数

证明:因为 λi\lambda_i 均为正实数,故有
   f(k=1qλkxk)=f(λ1x1+k=2qλkk=2qλkxkk=2qλk)λ1f(x1)+k=2qλkf(k=2qλkxkk=2qλk)\displaystyle f( \sum_{k=1}^q \lambda_k x_k) = f(\lambda_1 x_1 + \sum_{k=2}^q \lambda_k {\sum_{k=2}^q \lambda_k x_k \over \sum_{k=2}^q \lambda_k}) \leq \lambda_1 f(x_1) + \sum_{k=2}^q \lambda_k \cdot f({\sum_{k=2}^q \lambda_k x_k \over \sum_{k=2}^q \lambda_k})
         =λ1f(x1)+k=2qλkf(λ2k=2qλkx2+k=3qλkk=2qλkk=3qλkxkk=3qλk)\displaystyle = \lambda_1 f(x_1) + \sum_{k=2}^q \lambda_k \cdot f({\lambda_2 \over \sum_{k=2}^q \lambda_k} x_2 + {\sum_{k=3}^q \lambda_k \over \sum_{k=2}^q \lambda_k} \cdot {\sum_{k=3}^q \lambda_k x_k \over \sum_{k=3}^q \lambda_k})
         λ1f(x1)+λ2f(x2)+k=3qλkf(k=3qλkxkk=3qλk)\displaystyle \leq \lambda_1 f(x_1) + \lambda_2 f(x_2) + \sum_{k=3}^q \lambda_k \cdot f({\sum_{k=3}^q \lambda_k x_k \over \sum_{k=3}^q \lambda_k})
         k=1qλkf(xk)\displaystyle \leq \cdots \leq \sum_{k=1}^q \lambda_k f(x_k)

2.4 严格下凸函数

证明由定义可知,对于严格下凸函数,f[αx1+(1α)x2]αf(x1)+(1α)f(x2)f[\alpha x_1 + (1 - \alpha )x_2] \leq \alpha f(x_1) + (1 - \alpha )f(x_2) 等号成立时当且仅当 x1=x2x_1 = x_2 。而根据上文对于下凸函数对于 k=1qλkf(xk)f(k=1qλkxk)\displaystyle \sum_{k=1}^q \lambda_k f(x_k) \leq f(\sum_{k=1}^q \lambda_k x_k) 不等式推导过程可知,若下凸函数为严格下凸函数,则第一个 \leq 处等号成立当且仅当:x1=k=2qλkxkk=2qλkx_1 = {\sum_{k=2}^q \lambda_k x_k \over \sum_{k=2}^q \lambda_k};第二个 \leq 处等号成立当且仅当:x2=k=3qλkxkk=3qλkx_2 = {\sum_{k=3}^q \lambda_k x_k \over \sum_{k=3}^q \lambda_k}\cdots ;第 q1q-1\leq 处等号成立当且仅当:xq1=k=qqλkxkk=qqλq=xqx_{q-1} = {\sum_{k=q}^q \lambda_k x_k \over \sum_{k=q}^q \lambda_q} = x_q 。所有等号都成立则以上条件都需满足,对以上条件反向推导可得:xq=xq1x_q = x_{q-1}xq2=k=q1qλkxkk=q1qλk=λq1xq1+λqxqλq1+λq=xq1x_{q-2} = {\sum_{k=q-1}^q \lambda_k x_k \over \sum_{k=q-1}^q \lambda_k} = {\lambda_{q-1} x_{q-1} + \lambda_{q} x_q \over \lambda_{q-1} + \lambda_{q}} = x_{q-1}\cdotsx1=x2x_1 = x_2 。即

k=1qλkf(xk)f(k=1qλkxk)\displaystyle \sum_{k=1}^q \lambda_k f(x_k) \geq f(\sum_{k=1}^q \lambda_k x_k) 等号成立当且仅当 x1=x2==xqx_1 = x_2 = \cdots = x_q


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!