image classification competition steps
第一步,先测试出最基本的比较合适的baseline模型
测试最基本的baseline模型如resnet50, efficientnet, senet等等模型,得到在暂时不进行数据增强的情况下得到一个较为出色的结果的模型(验证结果比较高同时能够对数据适当的过拟合)。这一步自己设定最为直观的Loss,optimizer, lr(可微调)。此阶段可以测试多个模型,留下top k。
第二步,探索各种单变量对结果的影响
在上一步训练好的模型基础上,检测各种数据增强的方式,尺寸大小,label smoothimg, mix up等有效性,其该单变量有效性该这样判定:能够使得训练集合过拟合程度降低并且在验证集上的结果不降低太多,或者是能够提高验证集上的结果。
第三步:对数据进行进一步的分析
对不平衡样本进行处理,进行合理的预处理,进行EDA,根据自己的假设对数据进行处理并且用结果进行验证,并对结果合理性进行分析。
第四部:看能不能针对问题对网络进行小修改,同时对loss, optimizer进行进一步的思考
针对具体的问题看是否需要修改网络结构,并且结果验证。根据任务,评分函数,思考loss能否进行改进, optimizer结果可以进行一些对比。
第五步:集成,finetune
可以对网络进行finetune,用更有效果的optimizer, TTA,同时可以对比较优秀的几个网络进行ensemble、
如果比赛不限制外部数据的话,可以充分利用外部数据对网络进行预训练,甚至利用外部数据进行网络训练,还有可以充分利用伪标签数据。
模型预训练在小数据集比赛中很重要。
还有一些tricks也可以尝试尝试。