机器学习十讲（四）

模型误差的来源

训练集
假设空间
用训练集
逼近误差：模型空间与
估计误差：训练到的函数与模型空间最好的函数的距离
假设单个分类器误差
集成分类器误差为

e (H) = \sum k \leq T 2 c k T p T - k ( 1 - p ) k

核心问题：如何选择节点属性和属性分割点？
不纯度：表示落在当前节点的样本类别分布的均衡程度
节点分裂后，节点不纯度应该更低（类分布更不均衡）
选择特征及对应分割点，使得分裂前后的不纯度下降最大

随机森林：独立思考的重要性

最典型的
主要特点：
- 对样本进行有效放回抽样
- 对特征进行随机抽样
应用场景广泛：例如市场营销、股票市场分析、金融欺诈检测、基因组数据分析和疾病风险预测
算法流程
- 输入：训练集
- - 从训练集
  - 从
  - 使用决策树算法，使用
- 输出：分类：
假设单棵决策树的方差为

v a r (x) = ρ (x) σ 2 (x) + 1 - ρ ( x ) T σ 2 ( x )

每个基分类器带权重样本集下进行训练
根据其在训练样本中的加权误差来确定基分类器模型的权重
后一个分类器更加关注前一个分类器分错的样本
算法流程
- 初始化样本权重
- - 根据当前样本权重，训练基分类器
  - 计算
  - 计算
  - 更新样本权重
- 返回集成模型
理论上随着弱分类器数目

posted @ 2021-01-29 08:02 小赵不吃溜溜梅阅读(87) 评论(0) 编辑收藏举报

刷新页面返回顶部