摘要: 虽然我们认为训练样本是独立同分布的,但是在实际训练过程中,我们会划分 batch 来提高训练效率,此时不同的 batch 之间可能不再是同分布,从而影响模型的训练效果。 深度学习模型往往都具有较多的层,网络越深越容易出现梯度消失和梯度爆炸的问题,导致模型不稳定,不容易收敛。 对于深层的模型,如果不做 阅读全文
posted @ 2024-05-22 14:16 RubySIU 阅读(503) 评论(0) 推荐(0) 编辑