知乎讨论:
案例一
http://www.myzaker.com/article/5a68020fd1f1495d57000030/
Training Imagenet in one hour
本篇论文发现了 large batch 可以大大的提升分类网络的收敛速度,通过把 batch size 从 256 提升到 8192,将训练时间从几周降低到了 1 个小时,大大提升了神将网络的训练速度。
案例二
insightface 人脸识别讨论
batch size越大越好
实际中,受限于显卡内存的限制,batch_size不能无限增大,导致网络收敛速度慢。
从统计学的角度来看,batch_size越大意味着,参与计算各种mean计算的结果(BN, avg Grident)越准确.