思考:矩阵乘法的梯度计算推导过程
神经网络中的反向传播中的梯度计算一直是让我和头疼的问题,翻了好多资料,现在记录下自己目前的所得
-
结论
设\ y = f(X ∗ W) , C=X ∗ W,则有:
∂y∂Wi,j=XT∂y∂C
∂y∂Xi,j=∂y∂CWT
-
一个可以计算梯度的在线工具
虽然现在我自己还没玩明白hhh,但是功能应该是很强大
-
更新一个更简单的方式:
根据矩阵乘法反向推导更加简单比如 正向D = X * W (X: n * m W: m * k D: n * k)
dD 的shape肯定和D一样
同理,dW 的shape肯定是m * k,同时dw肯定有dD和X组成,那么根据矩阵乘法原理必须是 x.T.dot(dD)才行image.png
----------------------------------------------------------------------------------------------------------
本文作者:咿呀咿呀悠
本文链接:https://www.cnblogs.com/da-zhi/p/16813774.html
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步