random forest model

思考

传统机器学习方法都有特征提取的步骤(通过数学公式进行特征提取)

随机森林模型

随机选择条件进行建树,建立多个决策树形成森林。
决策树:进行选择或者预测的走向模型(树结构)
熵值公式:用于描述对选择的混乱程度。最常用的度量纯度的指标

熵值越小说明样本越纯,熵值越大,说明样本越混乱。函数与熵值对应关系的解释
熵值:熵值代表着混乱的程度,熵差代表信息增益(对决策的贡献程度)

剪枝
剪枝的目的其实就是防止过拟合,它是决策树防止过拟合的最主要手段。有预剪枝和后剪枝两种方式

参考

随机森林-理解
决策树随机森林-详细和代码-不同深度决策树对预测结果的影响

posted @ 2020-09-26 20:16  -Rocky-  阅读(378)  评论(0编辑  收藏  举报