数学基础之线性代数

标量(scalar)

向量(vector):一列数,即只有一列的矩阵。粗体的小写变量名称,比如 x.  可以把向量看成空间中的点,每个元素时不同坐标轴上的坐标。

矩阵(matrix):二维数组。用加粗的大写字母表示A.  (行row,列column). 矩阵和向量相乘用到了广播

张量(tensor):超过两维。就是ndarray那种。[[[[]]]]   . 用A(换字体了!)

向量乘法:两个相同维数的向量x,y,点积(dot product)——标量。可看做矩阵乘积\mathbf{x}^Ty。

矩阵乘法:可以看作是矩阵A中的每行与矩阵B的每列做点积。(满足分配率,结合律,不满足交换律。)

线性方程组——矩阵乘法。Ax=b(A:m×n , x :n×1 , b : m×1) ,A,x顺序不能变,满足矩阵乘法的前提。

生成子空间(span):原始向量线性组合后所能抵达点的集合。

奇异矩阵:首先是方阵,其次列线性相关(不是满秩)。(向量肯定是奇异的,只不过不是方的。)

 

范数(Norm): (L^p范数:其中L^2范数就是二维空间中的向量模长,又叫欧几里得范数,同时省略下标,简写为\left \| x \right \|

\left \| x \right \|_{\infty }=max\left | x_{i} \right |

平方L^2范数(不开p^-1次方):对x求偏导仅与x有关,而L^2范数则与整个向量有关。

L^\infty范数(max norm):   $\left \| \mathbf{x} \right \|_{\infty }=max\left | x_{i}\right |$ , 向量中具有最大幅度的元素的绝对值。

Frobenius范数:  $\left \| \textbf{A }\right \|_{F}=\sqrt{\sum_{}^{i,j}}A_{i,j}^{^{2}}$ , 衡量矩阵的大小。(矩阵中所有元素的算术平方根)

单位向量:指具有单位范数(L^2=1)的向量.

标准正交:向量不仅正交,而且范数都为1。

正交矩阵:$A^TA=AA^{^{T}}=I$,意味着$A^{^{-1}}=A^{^{T}}$.(受到关注是因为,若限制一个矩阵为正交矩阵则很容易得到逆。)

正定:所有特征值都是正数的矩阵(x是A的某个特征向量,\textbf{x}^{T}\textbf{A}\textup{\textbf{}x}\textbf{x} = 0,则x=0即特征值全为0)。

半正定:所有特征值都是非负。(x是A的某个特征向量,$\forall \textbf{x},\textbf{x}^{T}\textbf{A}\textup{\textbf{}x}\geqslant 0$

 

矩阵的特征分解(eigen-decomposition):$\textbf{A}=\textbf{V} diag\left ( \lambda \right ) \textbf{V}^-^1$ (diag-对角阵,$\lambda $是以矩阵A的特征值为对角线元素构成的向量,V是由A的每一个特征向量(列向量)构成的矩阵。)分解成特征向量和特征值。

 

奇异值分解(SVD-singular value decomposition):$\textbf{A}=\textbf{U} \textbf{D }\textbf{V}^T$,假设A为m×n, 则矩阵U为m×m,其列向量称为左奇异向量(就是AA^T的特征向量);D为对角矩阵m×n ,对角线元素即为矩阵A的奇异值(其非零值即为AA^T特征值的平方根); 矩阵V为n×n,其列向量称为右奇异向量(就是A^TA的特征向量)。(分解成奇异向量和奇异值,实数矩阵一定有奇异值分解),最大用处非方矩阵求逆。

Moore-Penrose 伪逆 (Moore-Penrose pseudoinverse):非方阵A。


迹运算:(1) Tr(A)= \small \sum_{}^{i}\lef\textbf{A}_{i,i.}(trace=矩阵对角线元素之和);(2)标量迹运算后是本身Tr(a)= a 

行列式(det(A)): det(A)=矩阵特征值之积。行列式的值可以衡量矩阵相乘后空间的扩大或缩小,若行列式为0,则矩阵至少沿某一维完全收缩了,失去了所有的体积;如果是1,则相乘后没有改变空间体积。

 

PCA方法:将数据降维压缩手段是:矩阵和向量相乘。(衡量最优编码的方法:最小化原始输入与重构向量之间的距离)结果是用一个矩阵的转置去×原始向量,f(\small \textbf{x})=\small \textbf{D}^Tx。(而经过证明此矩阵就是解码矩阵D,g(c)=Dc,(n×l)*(l×1)=(n×1)).最终矩阵D由\small \textup{X}^TX几个最大特征值对应的 l 个特征向量组成.(X是由各描述点x堆叠形成的矩阵)(使用同一个矩阵编码,因此最终最小化的是所有维数和所有点上的误差矩阵的Frobenius范数,不能再孤立地看每个描述点)

 

posted @ 2018-10-22 02:28  Parallax  阅读(614)  评论(0编辑  收藏  举报