为什么基于树的模型在表格数据上仍然优于深度学习

在这篇文章中，我将详细解释这篇论文《Why do tree-based models still outperform deep learning on tabular data》这篇论文解释了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络好得多。

论文的注意事项

这篇论文进行了大量的预处理。例如像删除丢失的数据会阻碍树的性能，但是随机森林非常适合缺少数据的情况，如果你的数据非常杂乱：包含大量的特征和维度。RF的鲁棒性和优点使其优于更“先进”的解决方案，因为后者很容易出现问题。

其余的大部分工作都很标准。我个人不太喜欢应用太多的预处理技术，因为这可能会导致失去数据集的许多细微差别，但论文中所采取的步骤基本上会产生相同的数据集。但是需要说明的是，在评估最终结果时要使用相同的处理方法。

论文还使用随机搜索来进行超参数调优。这也是行业标准，但根据我的经验，贝叶斯搜索更适合在更广泛的搜索空间中进行搜索。

了解了这些就可以深入我们的主要问题了——为什么基于树的方法胜过深度学习?

完整文章：

https://avoid.overfit.cn/post/e4682d6810d7427caf9aae6f6d1f3734

posted @ 2022-08-29 10:44 deephub 阅读(101) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

为什么基于树的模型在表格数据上仍然优于深度学习

论文的注意事项

公告