返回顶部

请叫我杨先生

导航

矩阵求导

矩阵求导

矩阵求导1 简单求导

假设我有A和B两个张量(可以是1x1的标量也可以是向量或者矩阵),所谓矩阵求导 \(\frac{\partial A}{\partial B}\), 就是矩阵A当中的每一个元素对B中的每一元素进行求导,所以求到之后的张量的元素的个数有以下情形:

那么现在我们来复习一下函数的几种形式: 1️⃣标量函数:\(f(x)={x_1}^2+3*{x_2}^5-4x_3 + ...\),像这种\([f(x)]_{1*1}\)称为标量函数。
2️⃣那么向量函数或者矩阵函数的定义就显而易见了,刑如\([f(x)]_{m*n}\)的函数称为向量函数,就好比如:

\[\begin{bmatrix} f_{11}(x_1,x_2) f_{12}(x_1,x_2)& \\ f_{21}(x_1,x_2) f_{22}(x_1,x_2) & \end{bmatrix}_{2*2}\]

矩阵求导有两个法则:分母、分子布局,但是在这一篇文章中我们都会以分母布局作为演示。用简单一点的话来说就是,求导出来的形状和分母的形状相同。

分子布局虽然没有说,但是按照上面讲的定义,就是求导出来的形状都会与分子的形状相同。

矩阵求导2 公式求导

1.\(f(x)=A^Tx\)求导 -----> \(\frac{\partial A^Tx}{\partial x} = A\)


2.\(f(x)=x^TAx\)求导 -----> \(\frac{\partial x^TAx}{\partial x} = (A^T+A)x\)

3.最小二乘法:\(\hat{S}(b)=\sum_{i=1}^p(y_i-x_i^Tb)^2 = (Y-xb)^T(Y-xb)\)求导 -----> \(\frac{\partial (Y-xb)^T(Y-xb)}{\partial b}= 2x^Txb-2x^TY\)

矩阵求导3 常用的矩阵求导公式介绍

总结

1.矩阵求导的结果有很多种,这要看使用的是什么求导的方式:分子/分母/混合布局等等。所以不同的人求导出来的结果不一样很正常。
2.使用什么布局没有什么优劣之分,但是要注意前后求导的一致性,比如前面一条公式我使用分子求导,后面一条公式我却用了分母求导,这样得到的结果相乘或者做一些其他运算必然会出错。
3.我们要学会反推别人的求导方式,我们可以通过维度上的信息进行判断,或者直接按照别人的公式推导一次,因为在大多数论文中都是没有说明是分子/分母布局的。
4.我这里推荐几个矩阵求导讲的特别好的大佬:
B站:空狐公子
个人博客:zdaiot
维基百科(矩阵求导)
Po-chen Wu ppt
码字不易,创作辛苦,请点个赞吧。(如果有错误的话请斧正,感谢!!你的支持是我最大的动力)

posted on 2021-12-14 23:57  YangShusen'  阅读(8749)  评论(0编辑  收藏  举报