统计学习方法李航学习笔记

零、常见的建模策略：

　　Linear Regression 线性回归

　　Logistic Regression 逻辑回归

　　Ensemble Learning 集成学习（特征工程决定了机器学习的上限，集成学习决定了这个上限的逼近程度）

　　　　bagging：多个分类器结果平均或者投票，rf

　　　　Boosting：Adaboost、GBDT（每一次子模型的生成，都是让残差沿着梯度方向减少）

　　　　Stacking：将多个分类器结果作为X变量，再训练后作为最终预测模型，

　　　　优点：模型更稳定

　　Deep Learing 深度学习 RNN、GNN

监督学习三板斧：目标、损失函数、参数估计

一、决策树

1、决策树是一种基本的分类与回归方法，本文主要讨轮用于分类的决策树，决策树模型呈现树形结构，在分类问题中，表示基于特征对实例进行分类的过程，

学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型

预测时，对新的数据，利用决策树模型进行分类，

决策树学习通常分为3个步骤：特征选择、决策树的生成和决策树的修剪，

2、特征选择：

特征选择在于选取对训练数据具有分类能力的特征，这样可以提高决策树学习的效率，

选择的准则是信息增益或信息增益比

信息熵：

经验熵：类别/D

二、随机森林：

bagging ensemble

子模型很多课决策树，每个子模型有同样的权重

为了鼓励子模型的差异，可以随机选择特征子集和训练样本子集建模

优势：能在特征完整的情况下建模

能够处理高纬特征，不用做特征选择

劣势：有些子模型会比其他子模型更有效，这里并没有体现

三、梯度提升回归树 GBDT

GBDT（gradient boosting regression tree ）,是一种迭代的梯度提升回归树算法，该算法由多颗回归树组成，所有树的结论累加起来做最终答案

用递增的方式建立子模型，每个新的模型的建立是为了使得之前模型的残差往梯度方向减少（原始boosting方法：增加分错的点的权重，减少分对的点的权重）

优势：

可以使用其来自动发现有效的特征，特征组合，来作为stacking(LR)模型中的弱分类器

特征的分布和取值无特殊要求

重要参数：

tree-specific parameters

　　max-depth

　　min_samples_splits

boosting parameters

　　learning_rate

　　n_estimators 子模型的个数

四、隐马尔可夫模型：隐藏的马尔可夫链随机生成序列

　　隐马尔可夫模型是可用于标注问题的统计学习模型，描述由隐藏的马尔可夫链随机生成观测序列的过程，属于生成模型。首先叙述HMM模型的基本概念，然后分别叙述HMM的概率计算，学习算法以及预测算法。HMM在语音识别、自然语言处理、生物信息、模式识别等领域有着广泛的应用

　　隐马尔可夫模型可以用于标注，这时状态对应着标记.标注问题是给定对应观测的序列预测其对应的标记序列.可以假设标记问题的数据是由隐马尔可夫模型生成的。这样可以利用隐马尔科夫模型的学习与预测算法进行标注。

二、条件随机场

　　条件随机场（CRF）是给定一组输入随机变量条件下，另一组随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔科夫随机场，条件随机场可以用于不同的预测问题，下面主要讨论在标注问题的应用，这时，问题变成了由输入序列对输出序列的判别模型，形式是对数线性模型、其学习方法通常是极大似然估计及正则化的极大似然估计

　　条件随机场的三个基本问题：概率计算问题、学习问题、预测问题

　　字面理解：随机场，是指随机变量，条件，是指在给定一组输入随机变量作为条件，输出变量的条件概率分布模型

posted @ 2018-03-27 11:23 lxwlxw 阅读(265) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

lxwlxw

统计学习方法李航学习笔记

公告