Toriyung

导航

神经网络的反向传播向量化

其中dW和db出现1/m的原因,是链式法则中dL/da时,由于损失函数L包含了1/m(因为对所有标签y[i]的损失进行平均),求导时保留1/m
 

posted on 2022-07-05 21:28  Toriyung  阅读(33)  评论(0编辑  收藏  举报