机器学习-矩阵和线性代数-笔记
关于奇异值分解具体的可以看看这篇博文SVD
奇异值分解(Singular Value Decomposition)是一种重要的矩阵分解方法,可以看做对称方阵在任意矩阵上的推广。
假设A是一个m×n阶实矩阵,则存在一个分解使得:
通常将奇异值由大而小排列。这样,Σ便能由A唯一确定了。
与特征值、特征向量的概念相对应:
Σ对角线上的元素称为矩阵A的奇异值;
U的第i列称为A的关于σi的左奇异向量;
V的第i列称为A的关于σi的右奇异向量。
线性代数
定义:方阵的行列式
1 阶方阵的行列式为该元素本身
n 阶方阵的行列式等于它的任一行 或列 的各元素与其对应的代数余子式乘积之和。
1×1的方阵,其行列式等于该元素本身。
2×2的方阵,其行列式用主对角线元素乘积减去次对角线元素的乘积。
3×3的方阵:
根据“主对角线元素乘积减去次对角线元素的乘积”的原则,得:
在一个n阶行列式A中,把(i,j)元素aij所在的第i行和第j列划去后,留下的n-1阶方阵的行列式叫做元素aij的余子式,记作Mij。
代数余子式:Aij=(-1)i+jMij
伴随矩阵
对于n×n方阵的任意元素aij都有各自的代数余子式Aij=(-1)i+jMij,构造n×n的方阵A*:
A*称为A的伴随矩阵。注意Aij位于A*的第j行第i列。
方阵的逆A.A*=|A|.I
由前述结论:
范德蒙行列式Vandermonde
矩阵的乘法
A 为 m × s 阶的矩阵, B 为 s × n 阶的矩阵,那么, C=A × B 是 m × n 阶的矩阵,其中,
矩阵和向量的乘法
A 为 m × n 的矩阵, x 为 n × 1 的列向量,则 Ax为 m × 1 的列向量,记:
由于 n 维列向量和 n 维空间的点一一对应,上式实际给出了从 n 维空间的点到 m 为空间点的线性变换。
旋转、平移 (齐次坐标下)
特殊的,若 m=n ,且 Ax 完成了 n 维空间内的线性变换。
矩阵的秩
在 m × n 矩阵 A 中,任取 k 行 k 列,不改变这 k2 个元素在 A 中的次序,得到 k 阶方阵,称为矩阵 A 的 k 阶子式。
显然, m × n 矩阵 A 的 k 阶子式有个。
设在矩阵 A 中有一个不等于 0 的 r 阶子式 D ,且所有r+1 阶子式 如果存在的话 全等于 0 ,那么 D 称为矩阵 A 的最高阶非零子式, r 称为矩阵 A 的秩,记做R(A)=r 。
n × n 的可逆矩阵,秩为 n
可逆矩阵又称满秩矩阵
矩阵的秩等于它行(列 )向量组的秩
秩与线性方程组的解的关系
对于 n 元线性方程组 Ax=b
无解的充要条件是 R(A)<R(A,b)
有唯一解的充要条件是 R(A)=R(A,b)=n
有无限多解的充要条件是 R(A)=R(A,b)<n
推论:
Ax=0 有非零解的充要条件是 R(A)<n
Ax=b 有解的充要条件是 R(A)=R(A,b)
向量组等价
向量 b 能由向量组 A: a1,a2,...,am 线性表示的充要条件是矩阵 A=(a1,a2,...,am ) 的秩等于矩阵B=(a1,a2,...,am ) 的秩。
设有两个向量组 A:a1,a2,...,am 及 B:b1,b2,...,bn, 若 B 组的向量都能由向量组 A 线性表示,则称向量组 B 能由向量组 A 线性表示。若向量组 A 与向量组 B 能相互线性表示,则称两个向量组等价。
系数矩阵
将向量组A和B所构成的矩阵依次记做A=(a1,a2,...,am ) ,B=(b1,b2,...,bn)B组能由A组线性表示,即对每个向量bj,存在k1j,k2j,...,kmj
使得
从而得到系数矩阵K
对C=AB 的重认识
由此可知,若 C=A × B ,则矩阵 C 的列向量能由 A 的列向量线性表示, B 即为这一表示的系数矩阵。
对偶的,若 C=A × B ,则矩阵 C 的行向量能由B的行向量线性表示, A 即为这一表示的系数矩阵
向量组 B: b1,b2,...,bn 能由向量组 A: a1,a2,...,am 线性表示的充要条件是矩阵A=(a1,a2,...,am ) 的秩等于矩阵
(A,B)=(a1,a2,...,am,b1,b2,...,bn) 的秩,即: R(A)=R(A,B)。
正交阵
若 n 阶矩阵 A 满足 A T A=I ,成 A 为正交矩阵,简称正交阵。
A 是正交阵的充要条件: A 的列 行 向量都是单位向量,且两两正交。
A 是正交阵, x 为向量,则 A x 称作正交变换。
正交变换不改变向量长度
特征值和特征向量
A 是 n 阶矩阵,若数 λ 和 n 维非 0 列向量 x 满足Ax=λx ,那么,数 λ 称为 A 的特征值, x 称为A的对应于特征值 λ 的特征向量。
根据定义,立刻得到 (A-λI)x = 0 ,令关于 λ 的多项式 |A-λI| 为 0 ,方程 |A-λI|=0 的根为 A 的特征值;将根 λ0 带入方程组 (A-λI)x = 0 ,求得到的非零解即 λ0 对应的特征向量。
特征值的性质
设 n 阶矩阵 A=(aij 的特征值为 λ1 ,λ2 ,...λn
则λ1 +λ2 +...+λn =a11 +a22 +…+ann
λ1λ2…λn =|A|
矩阵 A 主行列式的元素和,称作矩阵 A 的迹。
已知 λ 是方阵 A 的特征值,则λ2 是 A2 的特征值,A 可逆时,λ1 是 A1 的特征值。
不同特征值对应的特征向量
设 λ1,λ2,...,λm 是方阵 A 的 m 个特征值,p1,p2,...,pm 是依次与之对应的特征向量,若 λ1,λ2,...,λm 各不相等,则p1,p2,...,pm 线性无关。
引理
实对称阵的特征值是实数
设复数λ为对称阵A的特征值,复向量x为对应的特征向量,即Ax=λx(x≠0)
用表示λ的共轭复数,表示x的共轭复向量,而A是实矩阵,有
利用上述结论很快得到:
将实数 λ 带入方程组 (A-λI)x=0 ,该方程组为实系数方程组,因此, 实对称阵 的特征向量可以取 实向量 。
实对称阵不同特征值的特征向量正交
令实对称矩阵为 A ,其两个不同的特征值 λ1λ2对应的特征向量分别是 μ1μ2;
λ1λ2μ1μ2都是实数或是实向量。
最终结论:设 A 为 n 阶 对称阵 ,则必有 正交阵 P ,使得P-1AP=PTAP=Λ
Λ 是以 A 的 n 个特征值为对角元的对角阵。
该变换称为“合同变换”, A 和 Λ 互为合同矩阵。
白化/漂白whitening
计算观测数据x的n×n的对称阵x.xT的特征值和特征向量,用特征值形成对角阵D,特征向量形成正交阵U,则
x.xT=UTDU
令:
则:
正定阵
对于 n 阶方阵 A ,若任意 n 阶向量 x ,都有xTAx>0 ,则称 A 是正定阵。
若条件变成 xTAx≥0 ,则 A 称作半正定阵
类似还有负定阵,半负定阵。
正定阵的判定:
对称阵A为正定阵;
A的特征值都为正;
A的顺序主子式大于0;
以上三个命题等价。
利用定义证明:
若A、B为n阶半正定阵,则
从而,
即: 为半正定阵。从而,n阶半正定阵的集合为凸锥。
QR分解
对于m×n的列满秩矩阵A,必有:
其中QT·Q=I, (即列正交矩阵),R为非奇异上三角矩阵。当要求R的对角线元素为正时,该分解唯一。
该分解为QR分解。可用于求解矩阵A的特征值、A的逆等问题。
QR分解计算特征值
计算 n 阶方阵 A 的特征值:
向量的导数
A为m×n的矩阵, x为n×1的列向量,则Ax为m×1的列向量,记:
推导:
结论与直接推广:
向量偏导公式:
标量对向量的导数
A为n×n的矩阵, x为n×1的列向量,
标量对方阵的导数:
A为n×n的矩阵, |A|为A的行列式,计算
解:根据等式
依据:A·A*=|A|·I,第二个等式成立;
总结
线性代数是普适的数学工具,是进一步学习其他内容的基础。
有些机器学习的推导过程使用该工具表述清晰,易于推广,如线性回归。
重点思考特征值、特征向量和矩阵的关系。