摘要:
知识总结 (1)再次注意summary的使用 (2)`x = rdm.rand(dataset_size, 2) y_ = [[x1 2 + x2 2] for (x1, x2) in x]`这里的问题要注意 (3)注意batch时,全部先按照一套W进行前向传播,这时候在进行正则化时,加的是同一套W 阅读全文
摘要:
1、批量梯度下降 批量梯度下降法是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新。从数学上理解如下: 对应的目标函数(代价函数)即为: (1)对目标函数求偏导: (2)每次迭代对参数进行更新: 优点: (1)一次迭代是对所有样本进行计算,此时利用矩阵进行操作,实现了并行。 (2)由全 阅读全文