摘要: 树模型缺失值处理总结 除了ID3算法之外,其他的树模型基本上都能够处理缺失值。虽然如此,但如scikit-learn之类的库,其在支持gbdt的时候,并没有支持缺失值的处理 C4.5 第一步,计算所有特征的信息增益或者信息增益率的时候,假设数据集一共10000个样本,特征A中缺失了5000个,则无视 阅读全文
posted @ 2020-08-22 12:20 real-zhouyc 阅读(1884) 评论(0) 推荐(0) 编辑
摘要: LightGBM lightGBM总结 阅读全文
posted @ 2020-08-22 12:05 real-zhouyc 阅读(303) 评论(0) 推荐(0) 编辑
摘要: GB的高效实现--XGBoost xgb paper XGBoost的全称是eXtreme Gradient Boosting,是GBDT的更高阶的版本实现,因为他或多或少还是存在一些gbdt的影子,其建树的过程的cart树是相似的,gbdt的话用的也是cart树,确切的说是cart回归树,其次拟合 阅读全文
posted @ 2020-08-22 12:04 real-zhouyc 阅读(635) 评论(0) 推荐(0) 编辑
摘要: GBDT GBDT是boosting系列算法的代表之一,其核心是 梯度+提升+决策树。 GBDT回归问题 通俗的理解: 先来个通俗理解:假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了。如果 阅读全文
posted @ 2020-08-22 12:03 real-zhouyc 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 分类回归树CART CART树是后面所有模型的基础,也是核心树 在ID3算法中我们使用了信息增益来选择特征,信息增益大的优先选择。在C4.5算法中,采用了信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运 阅读全文
posted @ 2020-08-22 12:01 real-zhouyc 阅读(404) 评论(0) 推荐(0) 编辑
摘要: C4.5: ID3的改进版本 首先,C4.5和ID3一样都是多叉树,重点是连续特征处理+特征选择的方式不同。 ID3算法存在的不足, 在C4.5里面有了改进 有那些改进 不能处理连续特征的问题 C4.5的思路是将连续特征离散化. 比如m个样本, 特征A有m个连续的值, 取两个样本值的中位数,这样一共 阅读全文
posted @ 2020-08-22 12:00 real-zhouyc 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 基于信息增益(Information Gain)的ID3算法 ID3算法的核心是在数据集上应用信息增益准则来进行特征选择,以此递归的构建决策树,以信息熵和信息增益为衡量标准,从而实现对数据的归纳分类。 ID3算法需要解决的问题是如何选择特征作为划分数据集的标准。在ID3算法中,选择信息增益最大的属性 阅读全文
posted @ 2020-08-22 11:58 real-zhouyc 阅读(430) 评论(0) 推荐(0) 编辑
摘要: 传统机器学习 线性模型 线性回归 逻辑回归 SVM三种 硬间隔SVM 软间隔SVM 核函数SVM 树模型 ID3 C4.5 CART bagging 系 随机森林 boosting系(样本权重boosting&label bossting) Adaboost GBDT XGB LGB CatBoos 阅读全文
posted @ 2020-08-22 11:53 real-zhouyc 阅读(461) 评论(0) 推荐(0) 编辑
摘要: 题目 这道题有意思的一点是:路径不一定得从根节点开始,也不一定得到叶子节点结束,这道题2叉树和为某一个值的路径比较像,本质上还是一道DFS类型的题目 那么因为可以从任意一个节点开始,所以我们需要遍历到每个节点作为开始,满足条件的时候结束 class Solution { private: int c 阅读全文
posted @ 2020-08-09 22:10 real-zhouyc 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 参考一篇总结 一般组合类问题都可以通过回溯法解决,如果能够画出组合决策树,有助于清晰思路。 回溯类问题的解题模版 这里的选择列表其实也就是每一层决策树的可选集合 例题: leetcode-电话号码的组合 class Solution { private: vector<string> res; ve 阅读全文
posted @ 2020-07-30 22:18 real-zhouyc 阅读(294) 评论(0) 推荐(0) 编辑