2022 年 200+ ML 竞赛分析

mlcontests.com,这是一个聚合 Kaggle 和其他平台上的 ML 竞赛的网站。

详细分析了2022年的200+场比赛,以及获胜者做了什么(我们找到了67场比赛的获胜方案)。

一些亮点:

  • Kaggle 仍然以最多的奖金、最多的比赛和最多的参赛作品占据主导地位……

  • ......但是还有10+个其他平台有有趣的比赛和可观的奖金,以及数十个单人比赛网站

  • 几乎所有的比赛获胜者都使用 Python,1 个使用 C++,1 个使用 R,1 个使用 Java

  • 96% (!) 的深度学习解决方案使用 PyTorch(高于去年的 77%)

  • 我们发现所有获胜的 NLP 解决方案都使用了 Transformers

  • 大多数计算机视觉解决方案使用 CNN,尽管有些使用基于 Transformer 的模型

  • 表格数据竞赛主要由 GBDT (主要是 LightGBM)赢得,尽管与 PyTorch 的集成很常见

  • 一些获胜者在云计算上花费数百美元用于单次训练,其他人仅使用 Colab的免费套餐就成功获胜

  • 获胜者主要集中在一个通用工具包上——用于基础的 PyData 堆栈,用于深度学习的 PyTorch,用于 GBDT 的 LightGBM/XGBoost/CatBoost,用于超参数优化的 Optuna。

  • 一半的比赛获胜者是首次获胜者;三分之一以前赢得过多次比赛;一半是单独获胜者。一些连续获胜者仅在 2022 年就赢得了 2-3 场比赛!

完整报告中的更多详细信息和方法:https://mlcontests.com/state-of-competitive-machine-learning-2022?ref=mlc_reddit

 

 

 

获奖者使用的最常见的 Python 包

当我去年在这里发布类似的东西时,我收到了很多关于表格数据的问题,所以我今年对此进行了深入研究。人们还询问了排行榜调整计算成本趋势,所以这些也包括在内。

 

posted @ 2023-03-08 14:22  戴维德善业福  阅读(32)  评论(0编辑  收藏  举报