08 2024 档案

摘要:Task2.1:《深度学习详解》- 3.3&4&5 自适应学习率的概念和方法,包括AdaGrad、RMSProp和Adam等优化器。 - **训练网络时的梯度和损失变化**:训练网络时损失可能不再下降,但梯度范数不一定小,梯度可能在山谷壁间“震荡”,多数训练未到临界点就停止。- **不同学习率的影响 阅读全文
posted @ 2024-08-31 21:54 LYLtim 阅读(113) 评论(0) 推荐(0)
摘要:《深度学习详解》3.2节中关于批量和动量的主要内容总结: 批量的概念:在深度学习训练过程中,数据不是一次性全部用于计算梯度,而是被分成多个小批量(batch),每个批量包含一定数量的数据。每个批量的损失函数用于计算梯度并更新模型参数。 批量大小对梯度下降法的影响: 两种极端情况: 批量梯度下降法(B 阅读全文
posted @ 2024-08-27 22:23 LYLtim 阅读(72) 评论(0) 推荐(0)