2022 年 200+ ML 竞赛分析
mlcontests.com,这是一个聚合 Kaggle 和其他平台上的 ML 竞赛的网站。
详细分析了2022年的200+场比赛,以及获胜者做了什么(我们找到了67场比赛的获胜方案)。
一些亮点:
-
Kaggle 仍然以最多的奖金、最多的比赛和最多的参赛作品占据主导地位……
-
......但是还有10+个其他平台有有趣的比赛和可观的奖金,以及数十个单人比赛网站
-
几乎所有的比赛获胜者都使用 Python,1 个使用 C++,1 个使用 R,1 个使用 Java
-
96% (!) 的深度学习解决方案使用 PyTorch(高于去年的 77%)
-
我们发现所有获胜的 NLP 解决方案都使用了 Transformers
-
大多数计算机视觉解决方案使用 CNN,尽管有些使用基于 Transformer 的模型
-
表格数据竞赛主要由 GBDT (主要是 LightGBM)赢得,尽管与 PyTorch 的集成很常见
-
一些获胜者在云计算上花费数百美元用于单次训练,其他人仅使用 Colab的免费套餐就成功获胜
-
获胜者主要集中在一个通用工具包上——用于基础的 PyData 堆栈,用于深度学习的 PyTorch,用于 GBDT 的 LightGBM/XGBoost/CatBoost,用于超参数优化的 Optuna。
-
一半的比赛获胜者是首次获胜者;三分之一以前赢得过多次比赛;一半是单独获胜者。一些连续获胜者仅在 2022 年就赢得了 2-3 场比赛!
完整报告中的更多详细信息和方法:https://mlcontests.com/state-of-competitive-machine-learning-2022?ref=mlc_reddit
获奖者使用的最常见的 Python 包
当我去年在这里发布类似的东西时,我收到了很多关于表格数据的问题,所以我今年对此进行了深入研究。人们还询问了排行榜调整和计算成本趋势,所以这些也包括在内。