摘要: 优化算法 梯度下降 全批量梯度下降[每次使用全量数据更新产生,易产生内存瓶颈及收敛速度慢] $$\theta = \theta - \eta \nabla_\theta J(\theta) $$ 随机梯度下降[每次使用单个样本进行训练,收敛波动性大] \(\theta = \theta - \eta 阅读全文
posted @ 2020-03-31 20:51 龍馬 阅读(149) 评论(0) 推荐(0) 编辑