统计学习概述

【注】学习笔记参考自《统计学习方法第二版》——李航。

1. 定义

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也称为统计机器学习

赫尔伯特・西蒙曾对「学习」给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”

按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。

2. 特点

  • 统计学习以计算机及网络为平台,是建立在计算机及网络上的。
  • 统计学习以数据为研究对象,是数据驱动的学科。

统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。

  • 统计学习的目的是对数据进行预测与分析的。
  • 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析。

统计学习方法从给定的、有限的、用于学习的训练数据集合出发,假定数据是独立同分布产生的,并且假定要学习的模型属于某个函数的集合(称为假设空间,简称为模型),然后应用某个评价准则(简称为策略),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测,最优模型的选取由算法实现。模型策略算法称为统计学习方法的三要素,即方法=模型+策略+算法

  • 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。

3. 分类

3.1 基本分类

统计学习或机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。

  • 监督学习:从标注数据中学习预测模型的机器学习问题。本质是学习输入到输出的映射的统计规律。
  • 无监督学习:从无标注数据中学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构。
  • 强化学习:智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。本质是学习最优的序贯决策。

强化学习假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。

  • 半监督学习:利用标注数据和未标注数据学习预测模型的机器学习问题。旨在利用未标注数据中的信息,辅助标注数据进行监督学习,以较低的标注成本达到较好的学习效果。
  • 主动学习:机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。旨在找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。

通常的监督学习使用给定的标注数据,往往是随机得到的,可以看作是「被动学习」。

3.2 按模型分类

  • 概率模型与非概率模型(确定性模型)

在监督学习中,概率模型是生成模型,取条件概率分布形式 P(yx)P(y|x),非概率模型是判别模型,取函数形式 y=f(x)y=f(x)

  • 线性模型与非线性模型

对于非概率模型,如果函数 y=f(x)y=f(x) 是线性函数,则称为线性模型,否则称为非线性模型。

  • 参数化模型与非参数化模型

参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。

3.3 按算法分类

统计学习根据算法可以分为在线学习和批量学习。

  • 在线学习是指每次接受一个样本进行预测,之后学习模型,并不断重复该操作。
  • 批量学习是指一次接受所有数据,学习模型,之后进行预测。

3.4 按技巧分类

  • 贝叶斯学习:又称为贝叶斯推理。在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测。
  • 核方法:使用核函数表示和学习非线性模型的一种机器学习方法。

4. 研究

统计学习研究一般包括统计学习方法统计学习理论统计学习应用三个方面。

  • 统计学习方法的研究旨在开发新的学习方法。
  • 统计学习理论的研究旨在探索统计学习方法的有效性和效率。
  • 统计学习应用的研究旨在奖统计学习方法应用到实际问题中,解决实际问题。