机器学习数学基础(一)

标量、向量、矩阵、张量

标量(scalar) 一个标量表示一个单独的数。它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。

向量(vector) 一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称。向量中的元素可以通过带脚标的斜体表示,向量 \(X\) 的第 \(i\) 个元素是 \(X_i\)。我们也会注明存储在向量中的元素的类型,实数、虚数等。

矩阵(matrix) 矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如 \(A\)

张量(tensor) 一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用 \(A\) 来表示张量“A”。张量 \(A\) 中坐标为 \((i,j,k)\) 的元素记作\(A_{(i,j,k)}\)

四者之间的关系 标量是 \(0\) 阶张量,向量是 \(1\) 阶张量。

张量和矩阵的区别

  • 从代数角度讲, 矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排), 矩阵是二维的“表格”(分量按照纵横位置排列),那么 \(n\) 阶张量就是所谓的 \(n\) 维的“表格”。张量的严格定义是利用线性映射来描述。
  • 从几何角度讲, 矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
  • 张量可以用 \(3\times 3\) 矩阵形式来表示。
  • 表示标量的数和表示矢量的三维数组也可分别看作 \(1\times 1\)\(1\times 3\) 的矩阵。

向量和矩阵的范数

向量的范数

定义向量 \(\vec{a} = [-5, 6,8,-10]\) 。设任意一组向量为 \(\vec{x} = (x_1, x_2, \cdots, x_N)\)

  • 向量的 \(1\) 范数 向量的各个元素的绝对值之和。上述向量 \(\vec{a}\)\(1\) 范数结果就是 \(29\)

\[\Vert \vec{x} \Vert_1 = \sum_{i = 1}^{N} |x_i| \]

  • 向量的 \(2\) 范数 向量的每个元素的平方和再开平方根。上述向量 \(\vec{a}\)\(2\) 范数结果就是 \(15\)

\[\Vert \vec{x} \Vert_2 = \sqrt{\sum_{i = 1}^{N}|x_i|^2} \]

  • 向量的负无穷范数 向量的所有元素的绝对值中最小的。上述向量 \(\vec{a}\) 的负无穷范数结果就是 \(5\)

\[\Vert \vec{x} \Vert_{-\infty} = \min |x_i| \]

  • 向量的正无穷范数 向量的所有元素的绝对值中最大的。上述向量 \(\vec{a}\) 的负无穷范数结果就是 \(10\)

\[\Vert \vec{x} \Vert_{+\infty} = \max |x_i| \]

  • 向量的 \(p\) 范数

\[L_p = \Vert \vec{x} \Vert_p = \sqrt[p]{\sum_{i = 1}^{N}|x_i|^p} \]

矩阵的范数

定义矩阵 \(A=[-1, 2, -3; 4, -6, 6]\) 。 任意矩阵定义为 \(A_{m\times n}\) ,其元素为 \(a_{ij}\) 。矩阵的范数定义为如下,当向量取不同范数时, 相应得到了不同的矩阵范数

\[\Vert{A}\Vert_p :=\sup_{x\neq 0}\frac{\Vert{Ax}\Vert_p}{\Vert{x}\Vert_p} \]

【注】: \(\sup E\) 指集合 \(E\) 的上确界,即大于或等于 \(E\) 的所有其他元素的最小元素, 这个数不一定在集合 \(E\) 中。

  • 矩阵的 \(1\) 范数(列范数) 矩阵的每一列上的元素绝对值先求和,再从中取个最大的。即列和的最大值。上述矩阵 \(A\)\(1\) 范数先得到 \([5,8,9]\) ,再取最大的最终结果 \(9\)

\[\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}| \]

  • 矩阵的 \(2\) 范数 矩阵 \(A^TA\) 的最大特征值开平方根,上述矩阵 \(A\)\(2\) 范数得到的最终结果是 \(10.0623\) 。 其中, \(\lambda_{max}(A^T A)\)\(A^T A\) 的特征值绝对值的最大值。

\[\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)} \]

  • 矩阵的无穷范数(行范数) 矩阵的每一行上的元素绝对值先求和,再从中取个最大的。即行和的最大值。上述矩阵 \(A\)\(1\) 范数先得到 \([6;16]\) ,再取最大的最终结果就是 \(16\)

\[\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}| \]

  • 矩阵的核范数 矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵 \(A\) 最终结果就是 \(10.9287\)

  • 矩阵的 \(L0\) 范数 矩阵的非 \(0\) 元素的个数,通常用它来表示稀疏,\(L0\) 范数越小 \(0\) 元素越多,也就越稀疏。上述矩阵 \(A\) 最终结果就是 \(6\)

  • 矩阵的 \(L1\) 范数 矩阵中的每个元素绝对值之和,它是 \(L0\) 范数的最优凸近似,因此它也可以表示稀疏。上述矩阵 \(A\) 最终结果就是 \(22\)

  • 矩阵的 \(F\) 范数 矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的 \(L2\) 范数,它的优点在它是一个凸函数,可以求导求解,易于计算。上述矩阵 \(A\) 最终结果就是 \(10.0995\)

\[\Vert A\Vert_F=\sqrt{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^2)} \]

  • 矩阵的 \(L21\) 范数 矩阵先以每一列为单位,求每一列的 \(F\) 范数(也可认为是向量的 \(2\) 范数),然后再将得到的结果求 \(L1\) 范数(也可认为是向量的 \(1\) 范数),很容易看出它是介于 \(L1\)\(L2\) 之间的一种范数。上述矩阵 \(A\) 最终结果就是 \(17.1559\)

  • 矩阵的 \(p\) 范数

\[\Vert A\Vert_p=\sqrt[p]{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^p)} \]

矩阵的正定

如何判断一个矩阵为正定

  • 顺序主子式全大于 \(0\)
  • 存在可逆矩阵 \(C\) 使 \(C^TC\) 等于该矩阵;
  • 正惯性指数等于 \(n\)
  • 合同于单位矩阵 \(E\) ,即规范形为 \(E\)
  • 标准形中主对角元素全为正;
  • 特征值全为正;
  • 是某基的度量矩阵。

posted on 2019-08-12 20:15  solvit  阅读(368)  评论(0编辑  收藏  举报

导航