深度学习的batch_size

知乎讨论:

https://www.zhihu.com/question/61607442/answer/204675996

 

案例一

http://www.myzaker.com/article/5a68020fd1f1495d57000030/

Training Imagenet in one hour

本篇论文发现了 large batch 可以大大的提升分类网络的收敛速度,通过把 batch size 从 256 提升到 8192,将训练时间从几周降低到了 1 个小时,大大提升了神将网络的训练速度。

 

案例二

insightface 人脸识别讨论

batch size越大越好

 

实际中,受限于显卡内存的限制,batch_size不能无限增大,导致网络收敛速度慢。

从统计学的角度来看,batch_size越大意味着,参与计算各种mean计算的结果(BN, avg Grident)越准确.

 

posted on 2018-09-30 10:59  Maddock  阅读(986)  评论(0编辑  收藏  举报

导航