Loading

矩阵求导笔记

1. 标量对矩阵的求导

考虑一个标量函数 \(f(A)\),其输入是一个 \(m \times n\) 矩阵。函数关于矩阵的导数定义为:

\[\frac{\partial f}{\partial A} = \begin{bmatrix} \frac{\partial f}{\partial A_{11}} & \cdots & \frac{\partial f}{\partial A_{1n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f}{\partial A_{m1}} & \cdots & \frac{\partial f}{\partial A_{mn}} \end{bmatrix} \]

这是一个 \(m \times n\) 矩阵,其每个元素都是标量 \(f\) 关于 \(A\) 的相应元素的导数。

2. 标量对向量的求导

考虑一个标量函数 \(f(x)\),其输入是一个 \(n \times 1\) 向量。其导数是一个 \(n \times 1\) 向量,称为梯度:

\[ \nabla f(x) = \begin{bmatrix} \frac{\partial f}{\partial x_{1}} \\ \vdots \\ \frac{\partial f}{\partial x_{n}} \end{bmatrix} \]

3. 标量-矩阵函数的导数的转置形式

对于标量-矩阵函数,我们通常采用转置形式,因为它与线性代数中的常用操作相一致。

4. 二次型及其导数

考虑二次型函数:

\[f(x) = x^T A x \]

其导数为:

\[\nabla f(x) = (A + A^T)x \]

如果 \(A\) 是对称的,那么导数简化为:

\[\nabla f(x) = 2Ax \]
posted @ 2023-10-18 14:50  zzqDeco  阅读(15)  评论(0编辑  收藏  举报