理论-读书笔记0-统计学习方法

第1章 统计学习及监督学习概论

  • 统计学习:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评估准则(evaluation space),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据(test data)在给定的评价准则下有最优的预测,最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。

  • 统计学习关于数据的基本假设:

    • 同类数据具有一定的统计规律性,这里的同类数据是指具有某种共同性质的数据,数据分为由连续变量和离散变量表示的类型;
    • 输入与输出的随机变量X和Y遵循联合概率分布\(P(X,Y)\),训练数据和测试数据是依联合概率分布\(P(X,Y)\)独立同分布产生的。
    • 强化学习假设智能系统与环境的互动基于马尔可夫决策过程(Markov decision process),智能系统能观测到的是与环境互动得到的数据序列。马尔可夫决策过程具有马尔科夫性:下一个状态只依赖于前一个状态和动作,由状态转移概率函数\(P(s'|s,a)\)表示;下一个奖励也只依赖于前一个状态与动作,由奖励函数\(r(s,a)\)表示。
  • 统计学习方法的三要素:

    • 模型(model、对应假设空间)
    • 策略(strategy、对应评估准则)
    • 算法(algorithm、对应模型学习\选取的算法)
  • 统计学习的研究方向:

    • 统计学习方法:旨在开发新的学习方法
    • 统计学习理论:旨在探求统计学习方法的有效性和效率,以及统计学习的基本理论问题
    • 统计学习应用:旨在将统计学习方法应用到实际问题中去,解决实际问题
  • 统计学习的方法:

    • 监督学习(supervised learning)

      • 从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
      • 根据输入输出变量的不同类型,对预测任务给予不同的名称
        • 回归问题:输入变量与输出变量均为连续变量的预测问题
        • 分类问题:输出变量为有限个离散变量的预测问题
        • 标注问题:输入变量和输出变量均为变量序列的预测问题
    • 无监督学习(unsupervised learning)

      • 从无标注数据中学习预测模型的机器学习问题。无监督学习的本质是学习数据中的统计规律或潜在结构。
    • 强化学习(reinforcement learning)

      • 智能系统在于环境的连续互动中学习最优行为策略的机器学习问题。强化学习的本质是学习最优的序贯决策,要学习的决策表示为给定状态下采取的动作。强化学习的目标就是在所有可能的策略中选出价值函数最大的策略\(\pi^*\),而在实际学习中往往从具体的策略出发,不断优化已有的策略。

      • 强化学习的马尔可夫决策过程由五元组\(<S,A,P,r,\gamma>\)组成

        • \(S\)是有限状态(state)的集合

        • \(A\)是有限动作(action)的集合

        • \(P\)是状态转移概率(transition probability)函数

          \[P(s'|s,a)=P(s_{t+1}=s'|s_t=s,a_t=a) \]

        • \(r\)是奖励函数(reward function)

          \[r(s,a)=E(r_{t+1}|s_t=s,a_t=a) \]

        • \(\gamma\)是衰减系数(discount factor)(表示未来的奖励会有衰减)

          \[\gamma\in[0,1] \]

      • 策略\(\pi\)定义为给定状态下的动作的函数\(a=f(x)\)或者条件概率分布\(P(a|s)\)

      • 价值函数(value function)或者状态价值函数(state value function)定义为策略\(\pi\)从某一个状态\(s\)开始的长期累计奖励的数学期望:

        \[v_{\pi}(s)=E_{\pi}[r_{t+1}+\gamma{r_{t+2}}+\gamma^2r_{t+3}+\cdots|s_t=s] \]

      • 动作价值函数(action value function)定义为策略\(\pi\)的从某一个状态\(s\)和动作\(a\)开始的长期累计奖励的数学期望:

        \[q_{\pi}(s,a)=E_{\pi}[r_{t+1}+\gamma{r_{t+2}}+\gamma^2r_{t+3}+\cdots|s_t=s,a_t=a] \]

      • 强化学习方法包括:

        • 无模型(model-free)方法
          • 基于策略的(policy-based):不直接学习模型,而是试图求解最优策略\(\pi^*\),表示为函数\(a=f^*(s)\)或者条件概率分布\(P^*(a|s)\),学习通常从一个具体策略开始,通过搜索更优策略进行。
          • 基于价值的(value-based):不直接学习模型,而是试图求解最优价值函数,特别是最优动作价值函数\(q^*(s,a)\),这样可以简介学到最优策略。学习通常从一个具体价值函数开始,通过搜索更优的价值函数进行。
        • 有模型(model-based)方法:试图直接学习马尔可夫决策过程的模型,包括转移概率函数\(P(s'|s,a)\)和奖励函数\(r(s,a)\),这样可以通过模型对环境的反馈进行预测,求出价值函数最大的策略。
    • 半监督学习(semi-supervised learning)

      • 利用标注数据和未标注数据学习预测模型的机器学习问题,通常有少量标注数据、大量未标注数据。
      • 半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。
      • 更接近监督学习。
    • 主动学习(active learning)

      • 机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
      • 主动学习的目标是找出对学习最有帮助的实例让教书标注,以较小的标注代价,达到较好的学习效果(通常的监督学习使用给定的标注数据,往往是随机得到的,可以看作是“被动学习”)
      • 更接近监督学习。
  • 统计学习的模型:

    • 概率模型(probabilistic model)与非概率模型(non-probabilistic model)或者确定性模型(deterministic model)

      1. 概率模型取条件概率分布形式\(P(y|x)\),非概率模型取函数形式\(y=f(x)\)

      2. 条件概率分布\(P(y|x)\)和函数\(y=f(x)\)可以相互转化,条件概率分布最大化后得到函数,函数归一化后得到条件概率分布。所以概率模型与非概率模型的区别不在于输入输出之间的映射关系,而在于模型的内部结构:概率模型一定可以表示为联合概率分布的形式,而非概率模型则不一定存在这样的联合概率分布。

      3. 概率模型的代表是概率图模型(probabilistic graphical model),联合概率分布可以根据图的结构分解为因子乘积的形式,可以用最基本的假发规则和乘法规则进行概率推理:

      \[加法规则: P(x)=\displaystyle \sum_yP(x,y) \]

      \[乘法规则: P(x,y)=P(x)P(y|x) \]

    • 线性模型(linear model)和非线性模型(non-linear model)

    • 参数化模型(parametric model)和非参数化模型(non-parametric model)

      1. 参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画。
      2. 非参数化模型假设模型参数的唯独不固定或者说无穷大,随着训练数据量的增加而不断增大。
  • 统计学习的算法:

    • 在线学习(online learning)和批量学习(batch learning)

      1. 在线学习每次接受一个样本,预测后学习模型,并不断重复该操作。
      2. 批量学习一次接受所有数据,学习模型之后进行预测。

      在线学习比批量学习更难,因为每次模型更新中可利用的数据有限。

  • 统计学习的技巧:

    • 贝叶斯学习(Bayesian learning)/ 贝叶斯推理(Bayesian inference)

      利用贝叶斯定理,计算给定数据条件下模型的条件概率/后验概率,并应用这个原理进行模型估计以及数据预测。假设\(D\)表示数据,\(\theta\)表示模型参数, \(P(\theta)\)是先验概率,\(P(D|\theta)\)是似然函数。

      \[P(\theta|D)=\frac{P(\theta\cdot{D})}{P(D)}=\frac{P(\theta)\cdot{P(D|\theta)}}{P(D)} \]

posted @ 2021-06-29 13:01  tensor_zhang  阅读(99)  评论(0编辑  收藏  举报