为什么基于树的模型在表格数据上仍然优于深度学习
在这篇文章中,我将详细解释这篇论文《Why do tree-based models still outperform deep learning on tabular data》这篇论文解释了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络好得多。
论文的注意事项
这篇论文进行了大量的预处理。例如像删除丢失的数据会阻碍树的性能,但是随机森林非常适合缺少数据的情况,如果你的数据非常杂乱:包含大量的特征和维度。RF的鲁棒性和优点使其优于更“先进”的解决方案,因为后者很容易出现问题。
其余的大部分工作都很标准。我个人不太喜欢应用太多的预处理技术,因为这可能会导致失去数据集的许多细微差别,但论文中所采取的步骤基本上会产生相同的数据集。但是需要说明的是,在评估最终结果时要使用相同的处理方法。
论文还使用随机搜索来进行超参数调优。这也是行业标准,但根据我的经验,贝叶斯搜索更适合在更广泛的搜索空间中进行搜索。
了解了这些就可以深入我们的主要问题了——为什么基于树的方法胜过深度学习?
完整文章:
https://avoid.overfit.cn/post/e4682d6810d7427caf9aae6f6d1f3734
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)