摘要:
# 1. 自适应学习率调整(Adaptive Learning Rate) ## 1.1 为什么需要调整学习率 首先认识一个现象.Training stuck ≠ Small Gradient 训练卡住的原因不一定是因为 gradient 太小,即critical point,也有可能是因为振荡. 阅读全文
摘要:
# 1. Batch(批次) > 对抗临界点的两个方法就是batch 和 momentum 将一笔大型资料分若干批次计算 loss 和梯度,从而更新参数.每看完一个epoch就把这笔大型资料打乱(shuffle),然后重新分批次.这样能保证每个epoch中的 batch 资料不同,避免偶然性. > 阅读全文