https://avoid.overfit.cn/post/36a2d8369c6241f0aa7c5331e110336c
Micro-Outlier Removal:这个词听起来不错。但是这个术语是本文的作者首创的。所以应该找不到其他相关的资料,但是看完本篇文章你就可以了解这个词的含义。
在Kaggle 的《Titanic》排行榜中,作者使用这项技术获得了巨大排名飞跃-
在使用这个技术之前排名是12616
使用这个技术后排名是4057
Micro-Outlier Removal的动机
有许多改善机器学习模型的技术:超参数优化,网格搜索,甚至自动ML,那么现在还缺少什么呢?作者感觉缺啥一种基于直觉的可视化方法。因为 通过基于直觉的可视化方法可以超越目前所有机器学习优化技术,因为现在人工智能的技术还是在模拟人类。
现在让我们看看Micro-Outlier Removal是什么样子的
Micro-Outlier 定位方法
这是作者使用的泰坦尼克数据模型训练的一些信息:
- 只使用了以下特征:PClass, Sex, SibSp, Parch, Fare, Embarked.
- 没有使用年龄,因为它包含很多缺失的值。
- 没有进行其他的工程
- 使用的机器学习算法是基本的5级决策树,使用30-70的拆分策略
这里显示的是基于训练数据集和决策树算法的决策边界。下图中的图例表示下图中颜色的含义。
完整文章:
https://avoid.overfit.cn/post/36a2d8369c6241f0aa7c5331e110336c