2022 年 200+ ML 竞赛分析

mlcontests.com，这是一个聚合 Kaggle 和其他平台上的 ML 竞赛的网站。

详细分析了2022年的200+场比赛，以及获胜者做了什么（我们找到了67场比赛的获胜方案）。

一些亮点：

Kaggle 仍然以最多的奖金、最多的比赛和最多的参赛作品占据主导地位……
......但是还有10+个其他平台有有趣的比赛和可观的奖金，以及数十个单人比赛网站
几乎所有的比赛获胜者都使用 Python，1 个使用 C++，1 个使用 R，1 个使用 Java
96% (!) 的深度学习解决方案使用 PyTorch（高于去年的 77%）
我们发现所有获胜的 NLP 解决方案都使用了 Transformers
大多数计算机视觉解决方案使用 CNN，尽管有些使用基于 Transformer 的模型
表格数据竞赛主要由 GBDT （主要是 LightGBM）赢得，尽管与 PyTorch 的集成很常见
一些获胜者在云计算上花费数百美元用于单次训练，其他人仅使用 Colab的免费套餐就成功获胜
获胜者主要集中在一个通用工具包上——用于基础的 PyData 堆栈，用于深度学习的 PyTorch，用于 GBDT 的 LightGBM/XGBoost/CatBoost，用于超参数优化的 Optuna。
一半的比赛获胜者是首次获胜者；三分之一以前赢得过多次比赛；一半是单独获胜者。一些连续获胜者仅在 2022 年就赢得了 2-3 场比赛！

获奖者使用的最常见的 Python 包

当我去年在这里发布类似的东西时，我收到了很多关于表格数据的问题，所以我今年对此进行了深入研究。人们还询问了排行榜调整和计算成本趋势，所以这些也包括在内。

posted @ 2023-03-08 14:22 戴维德善业福阅读(32) 评论(0) 编辑收藏举报

刷新页面返回顶部

戴维德随笔