统计学习方法概论------《统计学习方法》李航著

  1. 统计学习由 监督学习,非监督学习,半监督学习和强化学习组成。
  2. 监督学习方法主要包括 分类、标注 与 回归问题
  3. 回归问题:输入变量 和 输出变量 均为连续变量的预测问题
  4. 分类问题:输出变量为有限个离散变量的预测问题
  5. 标注问题:输入输出变量均为变量序列的预测问题
  6. 统计学习三要素:模型,策略,算法
  7. 损失函数度量模型一次预测的好坏
  8. 风险模型度量平均意义下模型预测好坏
  9. 泛化误差反应了学习方法的泛化能力
  10. 泛化能力是有该方法学到的学习到的模型对位置数据的预测能力
  11. 泛化误差就是对学习到的模型的期望风险
  12. 泛化误差上界的性质:
    (1)它是样本容量的函数,样本容量增加,泛化上界趋向于0
    (2)它是假设空间容量的函数,假设空间越容量大,模型越南学,泛化误差上界就越大。
  13. 监督学习方法可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型
  14. 生成方法的特点:
    (1)可以还原联合概率分布P(X,Y)
    (2)学习收敛速度快
  15. 判别方法的特点:
    (1)直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,准确率更高
    (2)可以对数据进行各种程度的抽象、定义特征并使用特征,因此可以简化学习问题
  16. 分类 是监督学习的一个核心问题
  17. 评价分类器性能的一般指标是 分类精确率
  18. 二类分类问题常用的评价指标是精确率和召回率,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作
    TP------将正类预测为正类数
    FN------将正类预测为负类数
    FP------将负类预测为正类数
    TN------将负类预测为负类数
  19. 精确率定义:P = (TPTP+FP)\left(\frac{TP}{TP+FP}\right)
  20. 召回率定义:R = (TPTP+FN)\left(\frac{TP}{TP+FN}\right)
  21. F1是精确率和召回率的调和均值
    (2F1)\left(\frac{2}{ F1 }\right) = (1P)\left(\frac{1}{ P }\right) + (1R)\left(\frac{1}{ R }\right)
    F1 = (2TP2TP+FP+FN)\left(\frac{2TP}{ 2TP + FP + FN }\right)
  22. 标注常用的统计学习方法有:隐马尔科夫模型,条件随机场
  23. 回归模型是表示从输入变量到输出变量之间映射的函数
  24. 回归问题的学习等价于函数拟合
  25. 回归问题分为学习和预测两个过程。
  26. 回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法求解

统计学方法:k近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯蒂回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型、条件随机场。

posted @ 2019-07-10 10:14  Philtell  阅读(138)  评论(0编辑  收藏  举报