矩阵的导数与迹
https://www.cnblogs.com/crackpotisback/p/5545708.html
矩阵的导数
对于一个将m×n
的矩阵映射为实数的函数f,我们定义f对矩阵A的导数为
▽Af
而f
就是我们下面要介绍的迹。
方阵的迹
对于一个n
阶方阵A的迹被定义为方阵A的主对角线的元素之和,通常对方阵的求迹操作写成t,于是我们有
t
一些有用的性质
-
t
-
这是对三个方阵的积求迹,循环移位后的结果还是一样的,不仅2个方阵或者3个方阵的积求迹满足此性质,对其他更多个数的方阵的积求迹也满足此性质。
-
t
-
这个就比较明显了,方阵转置后主对角线上的元素不会变
-
t
-
-
t
-
-
▽At
这个看起来有点麻烦,下面验证一下,设方阵A
为
A=[acbd
设方阵B为
B=[egf
那么有
AB=[ae+bgce+d
所以有
t
然后有
▽At
-
-
▽AT
-
-
▽t
-
-
▽A|A|=|A|(A−1)T
一个在后面用到的等式
▽AT
推导过程如下:
由▽AT
自然有
▽AT
所以有
(C
对▽θ
的一点理解
Andrew ng在cs229-notes1中给出了一些公式,貌似还是有些东西并没有很明显的提出来,像我这种渣渣就有点晕。首先是给出的J
的矩阵表示如下
J
这个公式的推导过程还是比较简单的,下面的推导比较蛋疼,有些隐含的信息貌似Andrew ng没有明显指出来,对我这种渣渣就比较尴尬了。
▽θ
强行展开
▽θ
很明显,后面的y是一个与θ无关的常量,所以对θ求偏导数为0,可以省略掉。假设α是一个实数,那么我们有t。θ是n×1的,X是m×n的,所以θ的维数变换是(1×n)×(n×m)×(m×n)×(n×1),所以结果是一个1×1的方阵;同理其他的加数也是1×1的方阵,所以有
▽θ
由于t和t,所以θ,然后就有
▽θ
对t,有t,又有▽θ,所以有▽θ;又因为
∂XT
所以有▽θ,这样子就好办了
∴▽θ
令▽θ可以求出
θ