摘要: 知识总结 (1)再次注意summary的使用 (2)`x = rdm.rand(dataset_size, 2) y_ = [[x1 2 + x2 2] for (x1, x2) in x]`这里的问题要注意 (3)注意batch时,全部先按照一套W进行前向传播,这时候在进行正则化时,加的是同一套W 阅读全文
posted @ 2019-10-03 11:32 博博的Blog 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 1、批量梯度下降 批量梯度下降法是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新。从数学上理解如下: 对应的目标函数(代价函数)即为: (1)对目标函数求偏导: (2)每次迭代对参数进行更新: 优点: (1)一次迭代是对所有样本进行计算,此时利用矩阵进行操作,实现了并行。 (2)由全 阅读全文
posted @ 2019-10-03 08:55 博博的Blog 阅读(402) 评论(0) 推荐(0) 编辑