https://avoid.overfit.cn/post/36a2d8369c6241f0aa7c5331e110336c

Micro-Outlier Removal:这个词听起来不错。但是这个术语是本文的作者首创的。所以应该找不到其他相关的资料,但是看完本篇文章你就可以了解这个词的含义。

在Kaggle 的《Titanic》排行榜中,作者使用这项技术获得了巨大排名飞跃-

在使用这个技术之前排名是12616

使用这个技术后排名是4057

Micro-Outlier Removal的动机

有许多改善机器学习模型的技术:超参数优化,网格搜索,甚至自动ML,那么现在还缺少什么呢?作者感觉缺啥一种基于直觉的可视化方法。因为 通过基于直觉的可视化方法可以超越目前所有机器学习优化技术,因为现在人工智能的技术还是在模拟人类。

现在让我们看看Micro-Outlier Removal是什么样子的

Micro-Outlier 定位方法

这是作者使用的泰坦尼克数据模型训练的一些信息:

  • 只使用了以下特征:PClass, Sex, SibSp, Parch, Fare, Embarked.
  • 没有使用年龄,因为它包含很多缺失的值。
  • 没有进行其他的工程
  • 使用的机器学习算法是基本的5级决策树,使用30-70的拆分策略

这里显示的是基于训练数据集和决策树算法的决策边界。下图中的图例表示下图中颜色的含义。

完整文章:

https://avoid.overfit.cn/post/36a2d8369c6241f0aa7c5331e110336c

posted @ 2022-05-04 17:25  deephub  阅读(171)  评论(0编辑  收藏  举报