[quote] Essense of Linear Algebra

0.导论

原文为3b1b的线性代数入门课程: Essense of Linear Algebra

本文仅为该系列视频学习笔记备份, 没有图例

线性代数教学, 比起它的简明性和直观的几何意义, 更强调计算. 但是它是非常直观的初等理论

There is hardly any theory which is more elementary than linear algebra, in spite of the fact that generations of professors and textbook writers have obscured its simplicity by preposterous calculations with matrices.
— Jean Dieudonne

0.1 几何意义对于线性代数的重要性

理解线性代数的几何意义,有助于在你遇到具体问题的时候,知道用什么工具去解决它们,这些工具为什么有效,并且对产生的结果做出解释。

所以学习线性代数的层次关系应该是,由底向上:

stateDiagram Geometric_understarnding --> Computations 几何意义 --> 计算 Computations --> Uses 计算 --> 实际应用

于是,面对线性代数问题,人们更应该把计算部分交给计算机来完成,自己则专注于概念和原理部分

0.2 三角函数的思想实验

想象一下, 学习三角函数, f(x) = sin x 时, 仅从计算方向入手:

\[\begin{align*} \displaystyle & \sin x = \, \sum_ {i = 0} ^ \infty (-1)^i \frac{x^{2i + 1}}{(2i + 1)!}\\ & \sin 1 \, \approx 1 - \frac{1^3}{3!} + \frac{1^5}{5!} \approx 0.8417\\ & \sin(\pi/6) \approx \pi / 6 - \frac{(\pi/6)^3}{3!} + \frac{(\pi/6)^5}{5!} \approx 0.5000\\ & etc. \end{align*} \]

如果不知道它的几何意义, 在物理的速度正交分析之中就很难联想道 sin函数标达 水平速度和垂直速度的方法.

1.向量

引入一些数作为坐标是一种鲁莽的行为 ——赫尔曼·外尔

The introduction of numbers as coordinates is an act of violence - Hermann Weyl

1.1 向量的两种表达

向量可以是几何意义上的, 可随意移动的, 只有长度和角度两个描述的箭头.

也可以是一个定义在n维空间, 描述n维空间的数组.

而这两种描述是可以相互转化的, 正是这种相互转化 体现了 线性代数的效用

1.2 线性代数的意义

线性代数为数据分析提供了一条将大量数据列表概念化, 可视化的渠道.

它让数据央视变得清晰, 让你了解特定运算的意义.

另一方面它也是一种语言, 通过计算机能处理的数字来描述和操作空间

2.线性组合、张成的空间与基

数学需要的不是天赋,而是少量的自由想象。但想象太过自由又会陷入疯狂。

Mathematics requires a small dose, not of genius, but of an imaginative freedom which, in a larger dose, would be insanity - Angus K. Rodgers

2.1 线性相关

空间中不共线的两个不为零向量都可以表示空间中的任意一个向量, $ a \hat{i} + b\hat{j} = \vec{w}$

若固定其中一个标量,让另一个标量自由变化,所产生的向量终点会描出一条直线

2.2 基与空间

用基来表达元单位, 而不是用数字, 这对于理解向量更有帮助

由基底向量全部线性组合构成的向量集合称为"张成的空间"

那么向量的张成是在问: 仅通过向量的数乘和向量加法, 能得到的集合是什么?

2.3 新的表达

如果默认向量的始点是在原点, 而仅仅记录终点, 那么可以把向量张成的空间想象成一个点集, 或者说在考虑一组向量时, 不妨将他们定格在原点, 仅用终点表达它们, 那么向量空间就可以用笛卡尔坐标系表达.

在一个三维坐标系下, 两个线性无关(linearly independent)的向量张成的空间, 是一个平面(flat sheet)

2.4 基的严格定义

向量空间的一个基是张成该空间的一个线性无关的向量集

The basis of a vector space is a set of linearly independent vectors that span the full space.

3.矩阵与线性变换

很遗憾,Matrix(矩阵)是什么是说不清的。你必须得自己亲眼看看 ——墨菲斯

Unfortunately, no one can be told what the Matrix is. You have to see it yourself -Morpheus

3.1 变换的本质

变换可以说是一种函数, 矩阵对于一个向量的变换也好似函数对于数的变换那样

当然, 函数变换的是一个一个单一的标量(scalar)

而矩阵变换的是一个向量vector

就像函数强调的是数字伴随某种规律变化时展现出的各种特性 , 矩阵变换强调的是向量通过变换形成的运动方式

当然了, 这是单个向量的变换, 如果考虑到整个空间内的向量变换, 就需要把向量空间和坐标系联系起来, 像上一章节那样, 由终点表达向量

但是线性代数只关注那些线性运算得到的变换, 或是说满足以下性质

  1. 直线变换后仍是直线, 不能弯曲不止是坐标直线不能弯曲, 是空间内所有直线不能弯曲,

  2. 原点必须保持固定. 如果保持保持直线, 但原点改变就称为:仿射变换(Affine Transformation).

在这种变换中, 原点永远是不变的.

故线性变换是“保持网格线平行且等距分布”的变换

3.2 思考:如何用数值描述线性变换?

假设你希望实现一组线性变换, 那么你应该向计算机输入怎样的数据, 使得你输入一个向量坐标, 计算机能给你变换后的向量坐标?

\[\left [ \begin{matrix} x_{in} \\ y_{in} \end{matrix} \right ] \rightarrow \; ??? \rightarrow \left [ \begin{matrix} x_{out} \\ y_{out} \end{matrix} \right ] \]

只需要记录下基底的变化情况, 那么任意一组在基底下张成的空间内, 所有的向量都会遵循这个变换.

换句话说, 只要记录下基底的变化, 向量空间的线性变换就被表达出来了, 并不需要观察变换本身的模样!

一个二维的线性变量仅由四个数字完全确定, 将这两个坐标, 四个标量有序的封装在一起:

\[\left [ \begin{matrix} x_{in} \\ y_{in} \end{matrix} \right ] \rightarrow \; \left [ \begin{matrix} a & b \\ c & d \end{matrix} \right ] \left [ \begin{matrix} x_{in} \\ y_{in} \end{matrix} \right ] \rightarrow \underbrace{ x \left [ \begin{matrix} a \\ c \end{matrix} \right ] + y \left [ \begin{matrix} b \\ d \end{matrix} \right ] }_{直观的部分} = \left [ \begin{matrix} ax+&by\\ cx+&dy \end{matrix} \right ] \rightarrow \left [ \begin{matrix} x_{out} \\ y_{out} \end{matrix} \right ] \]

称为$ 2 \times 2$ 矩阵

这个表述即是说矩阵的列是线性变换后的基

3.3 练习

eg.1 空间旋转90°

\(\hat{i}\)落在\(\left [\begin{matrix} 0 \\ 1 \end{matrix} \right ]\) 上 , 而\(\hat{j}\)落在\(\left [ \begin{matrix} -1 \\ 0 \end{matrix} \right]\) 上 , 那么矩阵为\(\left[ \begin{matrix} 0 & -1\\ 1 & 0 \end{matrix} \right]\)

eg.2 shear

\(\hat{i}\)落在\(\left [\begin{matrix} 1 \\ 0 \end{matrix} \right ]\) 上 , 而\(\hat{j}\)落在\(\left [ \begin{matrix} 1 \\ 1 \end{matrix} \right]\) 上 , 那么矩阵为\(\left[ \begin{matrix} 1 & 1\\ 0 & 1 \end{matrix} \right]\)

eg.3 反向思考 \(\left[ \begin{matrix} 1 &3 \\ 2 &1 \end{matrix} \right]\) 是怎样的线性变换?

\(\hat{i}\) 移动到\(\left[ \begin{matrix} 1 \\ 2 \end{matrix} \right]\)\(\hat{j}\) 移动到\(\left[ \begin{matrix} 3 \\ 1 \end{matrix} \right]\)

如果矩阵是退化的, 即矩阵内的列向量存在线性相关性 , 或者说矩阵的行列式等于0 , 那么这个矩阵代表的线性变换, 就像上一节提到的, 会将\(\hat{i} , \hat{j}\) 张成的空间 挤压到这个矩阵的列向量坐在的直线——就是将两个二维向量张成一个一维空间

线性相关的严格定义是符合可加性成比例

\(L(\vec{v} +\vec{w}) =L(\vec{v}) + L(\vec{w})\)

\(L(c\vec{v}) = cL(\vec{v})\)

4.矩阵乘法与线性变换复合

根据我的经验, 如果丢掉矩阵的话, 涉及矩阵的证明可以缩短一半. ——埃米尔·阿廷

It is my experience that proofs involving matrices can be shortened by 50% if one throws the matrices out . ——Emil Artin

4.1 线性变换的复合

想象一下一个线性变换之后在进行另一个线性变换, 比如说:

eg.1 先将整个平面旋转90°, 在进行一次剪切

\(\left[ \begin{matrix} 1 & 1\\ 0 & 1 \end{matrix} \right] \left[ \begin{matrix} 0 & -1\\ 1 & 0 \end{matrix} \right] \left[ \begin{matrix}\hat{i} \\ \hat{j} \end{matrix} \right] = \left[ \begin{matrix} 1 & -1\\ 1 & 0 \end{matrix} \right] \left[ \begin{matrix}\hat{i} \\ \hat{j} \end{matrix} \right]\)

这就是旋转和剪切的复合 (Composition of a rotation and a shear)

eg.2 \(\left[ \begin{matrix} 0 & 2\\ 1 & 0 \end{matrix} \right] \left[ \begin{matrix} 1 & -2\\ 1 & 0 \end{matrix} \right] = \left[ \begin{matrix} ? & ?\\ ? & ? \end{matrix} \right]\)

\(\left[ \begin{matrix} 0 & 2\\ 1 & 0 \end{matrix} \right] \left[ \begin{matrix} 1 & -2\\ 1 & 0 \end{matrix} \right] = \left[ \begin{matrix} 0 & 2\\ 1 & 0 \end{matrix} \right] \left(\left[ \begin{matrix} 1 \\ 1 \end{matrix} \right] \left[ \begin{matrix} -2\\ 0\end{matrix} \right] \right)\)

其中 \(\left[ \begin{matrix} 0 & 2\\ 1 & 0 \end{matrix} \right] \left[ \begin{matrix} 1 \\ 1 \end{matrix} \right] = 1 \left[ \begin{matrix} 0 \\ 1 \end{matrix} \right] + 1\left[ \begin{matrix} 2 \\ 0 \end{matrix} \right] = \left[ \begin{matrix} 2 \\ 1 \end{matrix} \right]\)

\(\hat{i}\) 的变化为\(\left[ \begin{matrix} 2 \\ 1 \end{matrix} \right]\)

同理可推\(\hat{j}\)

\(\left[ \begin{matrix} 0 & 2\\ 1 & 0 \end{matrix} \right] \left[ \begin{matrix} -2 \\ 0 \end{matrix} \right] = -2 \left[ \begin{matrix} 0 \\ 1 \end{matrix} \right] + 0\left[ \begin{matrix} 2 \\ 0 \end{matrix} \right] = \left[ \begin{matrix} 0 \\ 2 \end{matrix} \right]\)

\(\therefore 复合线性变换为 \left[ \begin{matrix} 2 &0 \\ 1 &2 \end{matrix} \right]\)

永远记住, 思考矩阵乘法的意义 大于 记忆矩阵乘法的过程!

概念性的框架能帮助理解概念性的思考

4.2 思考:矩阵的乘法可以交换吗?

不要记忆公式和结论, 从矩阵乘法的概念, 它的几何意义入手

线性变换的先后顺序会影响到最后的线性变换的复合效果吗?

比如说在本节eg.1中, 考察先旋转, 在剪切的效果 , 和 先剪切, 然后旋转, 这两者效果是不同的

这里不要进行计算, 仅在大脑中想象旋转后剪切和剪切后旋转的效果!

4.3 思考:矩阵乘法结合律的证明

用数值方法进行证明的话没有任何的启发性, 尝试使用变换的角度思考:

\(A(BC) = (AB)C\)

实事上, 因为矩阵变换的顺序没有变, 最后变换的效果也没有变

十分简明

它也解释了: 良好的解释是 大于 象征性证明[1]


5.行列式

计算的目的不在于数字, 而在于洞察背后的意义 ——理查德·哈明

The purpose of computation is insight , not numbers ——Richard Hamming

5.1 变换对空间的挤压和拉伸

进行过变换之后, 空间究竟是被挤压了, 还是被拉伸了? 有没有一种测度能够度量?

通过研究基底\(\hat{i} \times \hat{j}\) 的面积, 即$ di \times dj$ 的大小与原来的比

其它任意面积均可用基底的微元面积变化来说明.

这个缩放的比例就是线性变换的行列式(The "determinant" of a transformation)

\(\det \left( \left[ \begin{matrix}3 &2\\ 0 &2 \end{matrix} \right] \right)=6\)

特别的, 当行列式为零的时候, 这个变换是退化的, 它将空间压缩到一条线甚至一个点上.

当考察对象是一个三位空间时, det的值当然就是体积微元的缩放比例了!

所以一个三维行列式的值, 和一个由三维空间基底所构成的, 平行六面体(parallelepided)的值一 一 对应.

三阶矩阵的退化会使得空间压缩称二位空间甚至是一维空间, 或者是一个点. 此时三阶矩阵中的三个向量一定是线性相关的.

5.2 思考:行列式的负值

但是有一点需要注意, 即行列式允许出现负值, 那么负值的集合意义是什么?

应该是整个平面翻转(fliping)了, 从如果\(\hat{i} \times \hat{j}\) 是向外方向, 进行一次行列式为负的线性变换A之后, \(A\hat{i} \times A\hat{j}\) 的方向应当是向内. 称类似的变换为反转了空间取向

为什么负的面积与翻转取向相关?

空间压缩 det 变小→ 变成线 det = 0 → 空间扩张 det变负数

当考虑三位空间内, 三阶行列式的值为负的几何意义时, 需要引入手性空间, 即右手定则:

  1. 伸开手掌
  2. x轴正向穿过右手掌心, 右手手指指向y轴正方向
  3. z轴方向应当为右手大拇指方向

符合右手定则的基底的行列式是正的, 反之为负数.

5.3 行列式的计算

对于三阶行列式, 计算同理, 这属于解析几何的范畴, 记得三阶矩阵的行列式表达了一个平行六面体的体积即可(因为是矩阵转化而来, 所以通过矩阵也可以知道它的位置和夹角)

5.4 思考:矩阵积和求行列式运算可交换

\(\det(M_1M_2)=\det(M_1)\det(M_2)\)

第一次线性变化的比例不会被第二次线性变化改变. QET

6.逆矩阵, 列空间,秩与零空间

提出正确的问题比回答它更困难 ——格奥尔格·康托尔

To ask the right question is harder than to answer it. ——Georg Cantor

6.1 线性方程组

矩阵和一个未知列向量的积等于一个常数向量, 这在几何意义上可以是:

当一个未知向量\(\vec{x}\)所在空间被线性变换之后, 得到了一个给定的常数向量\(\vec{v}\), 求该未知向量

线性变换的矩阵\(A\)对空间的作用分两种, 当作用的矩阵为非退化矩阵时, 有且仅有一个未知向量的解满足要求. 为了找到这个未知向量\(\vec{x}\) , 使用什么样的方法呢?

请从几何角度来思考这个问题, 不要使用克拉默法则

6.2 逆矩阵

如果你进行一次非退化的线性变换, 然后再进行一次它的逆变换, 显然整个空间回到了当初原来的样子, 即恒等变换(identity transformation) \(AA^{-1} = E = \left[\begin{matrix} 1 &0 \\ 0 &1 \end{matrix} \right]\) , 这个矩阵它保持\(\hat{i} , \hat{j}\) 不变

\(A\vec{x} = \vec{v} \quad \Rightarrow \quad A^{-1}A\vec{x} = A^{-1}\vec{v} \quad \Rightarrow \quad E\vec{x} = A^{-1} \vec{v}\)

通过倒放这种线性变换(因为是非退化的, 所以\(A^{-1}\) 存在)

于是逆矩阵\(A^{-1}\)与列向量\(\vec{v}\) 的乘积就是\(\vec{x}\)

显而易见的是, 这种可逆的线性变换是唯一的(可以证明)

如果这个线性变换\(A\) 是退化的, \(\det{A} = 0\) , 那么它是没有逆变换的, 因为二维空间和三维空间之间没有一一映射

但是显然在这种情况下, 当空间退化时, 依然要满足\(\vec{v}\) 在退化的空间中:

显然从上图可知, 不是每个退化的线性变换都一定能得到解.

6.3 秩与零空间

为了理解这种空间的"退化程度", 比如说线性变换令一个三维空间退化成一个二维空间, 或者一个一维空间, 这两者的性质一定是不同的.

我们称空间\(\Omega\)的 进行线性变换之后维数 , 为 线性变换 \(A\)的秩(rank)

如果空间\(\Omega\) 的维数等于 线性变换后的维数(\(A\)的秩) 则称\(A\) 是一个满秩的矩阵

另外将所有\(A\vec{v}\) 可能的输出(\(A\) 确定, \(\vec{v}\) 任意变动, 正是这种任意变动构成了一个空间), 称为\(A\)的列空间(column space) , 从空间的基来看, 描述基向量终点的列向量组成矩阵, 同时这些符合条件的列向量(来自矩阵)张成了一个空间.

所以, 秩的更精确的定义是, 列空间的维数(The number of dimensions in the column space)

零向量\(\left[ \begin{matrix} 0 \\ 0\end{matrix} \right]\) 一定在列空间中, 因为线性变换一定要保证原点位置不变, 同样从几何的角度考虑这一句话!

对于一个满秩的变换来说\(A\vec{v} = \vec{0}\) 的情况只有 \(\vec{v} = \vec{0}\) 着一种情况, 而对于\(\det{A} = 0\)的空间来说, 却又有非零向量满足这个条件.

压缩到原点的向量张成的空间的维数, 等于\(Rank(\Omega) - Rank(A)\)

比如说当一个三位空间\(\Omega\)被一个线性变换\(A\) 退化为 一个一维空间

\(Rank(\Omega) = 3\)

\(\because\) 由上文

空间\(\Omega\)的 进行线性变换之后维数 , 为 线性变换 \(A\)的秩(rank)

\(\therefore Rank(A) = 1\) , 那么满足\(A\vec{v} =\vec{0}\)\(\vec{v}\) 所张成的空间的维数等于\(Rank(\Omega) - Rank(A) = 3 - 1 = 2\)

\(\vec{v}\) 张成了一个二维空间.

特别的, 当\(A\vec{x} = \vec{v} , \vec{v} = \left[ \begin{matrix} 0 \\\ 0 \end{matrix} \right]\) 时, 零空间(Null space)正好就是方程的解!

6.4 非方阵

向量在不同维度之间转换是合情合理的, 不妨先考虑一个简单的情况:

\(\underbrace{ \left[ \begin{matrix} 2 \\ 7 \end{matrix} \right] }_{2d\; input} \rightarrow L(\vec{v}) \rightarrow \overbrace{\left[ \begin{matrix} 1 \\ 2 \\ 8\end{matrix} \right]}^{3d \; outupt}\)

只改变落点不改变它的起始点, 依然这是一个线性变换.

其中\(L(\vec{v}) = \left[ \overbrace{ \begin{matrix} 2 \\ -1 \\ -2 \end{matrix} }^{where\ \hat{i}\ lands} \underbrace{ \begin{matrix} 0 \\ 1 \\ 1 \end{matrix} }_{where\ \hat{j}\ lands} \right]\) 是一个3行2列的矩阵, 也就是一个非方阵,

但是它是一个满秩的矩阵, 因为它的列空间维数和输入空间维数相等

但是这样一个矩阵是不满秩的, 为什么?

\(\left[ \begin{matrix} 2 &0 &2 \\ -1 &1 &-1 \\-2 &1 &-2 \end{matrix} \right]\)

另外同时, \(\left[ \begin{matrix} 3 &1 &4 \\ 1 &5 &9\end{matrix} \right]\) 这样一个矩阵是退化的, 因为它指明了\(\hat{i}, \hat{j}, \hat{k}\) 三个基底在二维空间中的终点

请注意, 基底从三维空间压缩到二维空间, 只是信息丢失了, 实际上空间并没有消失

当空间从二维退化到一维时, 二维空间中线性相关的向量在一维空间中变得等距

这是一个很有意义的线性变换, 它和点积密切相关.

另外, 在不同维度间线性变换的 背景下思考矩阵乘积和线性方程组等概念的意义, 将是一个有趣的思维体操.

7. 点积与对偶性

卡尔文: 你知道吗, 我觉得数学不是一门科学, 而是一种宗教.

霍布斯: 一种宗教?

卡尔文: 是啊. 这些公式就像奇迹一般. 你取出两个数, 把它们相加时, 它们神奇地成为了一个全新的数! 没人能说清这到底是怎么发生的. 你要么完全相信, 要么完全不信。

Calvin: You know, I don't think math is a science, I think it's a religion.

Hobbes: A religion?

CaIvin: Yeah. AII these equations are like miracles. You take two numbers and when you add them, they magically become one NEW number! No one can say how it happens. You either believe it or you don't.

7.1 点积

只有从线性变化的角度触发才能真正理解点积的作用——一个一维向量做在一个一维空间下进行线性变换如:

\[\vec{v} \cdot \vec{w} = \left[ \begin{matrix} 4\quad 3\quad 5 \end{matrix} \right] \cdot \left[ \begin{matrix} 1\\ 2 \\7 \end{matrix} \right] = 4 \times 1 + 3 \times 2 + 5 \times 7 = 45 \]

实事上, 点积的几何解释是\(\vec{v}\)长度\(\vec{w}\)投影长度的乘积, 点积中两个向量的地位是不同的, 但是它是可以交换的!

假设\(\vec{v}\)\(\vec{w}\)的长度相同, 考虑它们的对称轴会发现它们的点积是对称的

然后考虑\(\vec{v}\)\(\vec{w}\)长度不同的情况

$ (c\vec{v}) \cdot \vec{w} = c(\vec{v} \cdot \vec{w})$

整个点积过程可以看成把\(c \vec{v}\) 分解成 c段 分别与\(\vec{w}\) 做点积再相加

而将点积的向量解释和矩阵解释联系起来的性质, 就是对偶性

7.2 对偶性

对偶性(Duality) : 两种数学事物之间自然又出乎意料的对应关系.

多维空间到一维空间的线性变换一定满足

\(L(\vec{v} + \vec{w} ) = L(\vec{v}) +L(\vec{w}) \\ L(c\vec{v}) = cL(\vec{v})\)

等距分布的点始终保持等距分布

而非线性变换没有这种性质

始终记得向量是描述基底落点的有序数组, 所以要追踪一个一维线性变换对空间的影响也要从基底出发:

设有一个线性变换\(L(\vec{v})\)\(\hat{i}\)\(\hat{j}\) 分别变成1和-2, 作用于向量\(\vec{v} = \left[ \begin{matrix} 4 \\ 3 \end{matrix} \right]\)

而从这种交换性可以知道, 二维向量的转置\(\vec{v}^T\) 和 $ 1 \times 2$矩阵之间存在联系

即将向量转化为数的线性变换和这个向量本身有某种关系

另外, 考虑一个二维空间中, 任意方向上的单位向量\(\hat{u}\) , 它和张成该二维空间的中的两个基底之间分别取对称轴, 会发现\(\hat{u}\)\(\hat{i} , \hat{j}\) 之间的投影因为其对称轴的关系, 也等于 \(\hat{i} ,\hat{j}\)\(\hat{u}\) 的投影,

然后, 对与二维空间中的基底, 这个等式是成立的, 那么这个性质对于基底张成的空间也是成立的. 于是对偶性就成了点积与 线性变换\(L(\vec{v})\) 相互转化的的证明条件

然后对于非单位向量来说, 这种对称的性质, 由$ L(c\vec{v}) = cL(\vec{v})$ 保证了一定能转化到单位向量上来.

于是: 点积可以看成是一种特殊的线性变换, 它将二维空间中的任意向量压缩到一维空间上, 这个过程也称投影. 同时必须注意到: 高维空间中, 任意两个不线性相关的向量作为基底, 张成的空间, 也是一个二维空间, 于是, 任意维度的空间中的两个向量也能存在点积.

8.叉积

每一个维度都很特别. ——杰弗里·垃加里亚斯

Every dimension is special. —— Jeff Lagarias

8.1 叉积的介绍

将二维空间中的向量\(\vec{v}, \vec{w}\) 取叉积, 就是指将\(\vec{v}\)的副本的起点移动到\(\vec{w}\)的终点, 再取\(\vec{w}\)的副本, 将它的起点移动到\(\vec{v}\)的终点所构成的平行四边形的面积, 方向如果\(\vec{v} \times \vec{w}\)\(\vec{v}\)\(\vec{w}\)是逆时针的, 则这个 面积为正, 否则为负. (这是内积的定义, 是一个思维训练)

事实上\(\hat{i} \times \hat{j} = + 1\) 因为基向量的顺序就是定向的基础

例如说: \(\hat{i} \perp \hat{j} , \hat{i} \times \hat{j} = \hat{k}, \\ \hat{j} \times \hat{k} = \hat{i}\)

那么这就是个用\(\hat{i},\hat{j},\hat{k}\) 张成的三位空间

如果说\(\hat{i} \perp \hat{j} , \hat{i} \times \hat{j} = \hat{k}, \\ \hat{j} \times \hat{k} = \hat{l} \neq \hat{i}\)

那么这一空间至少有4个基底(\(\hat{i} , \hat{j} , \hat{k}, \hat{l}\))

8.2 思考题

四维空间中, 标准正交基\(\hat{i} , \hat{j} , \hat{k}, \hat{l}\) 两两垂直, 且

满足:

\(\hat{i} \times \hat{j} = \hat{k} \\\hat{j} \times \hat{k} = \hat{l}\)

问:

1.\(\hat{i} = ? \times ?\)

2.\(\hat{i} \times \hat{k} = ?\)

答:

1.\(\hat{i} = \hat{k} \times \hat{l} \\ \hat{j} = \hat{l} \times \hat{i} \\\)

\(\hat{i} \times \hat{k} =c \hat{j}\)\(\hat{k} \parallel \hat{l}\) , 矛盾;

\(\hat{i} \times \hat{k} =c \hat{l}\)\(\hat{i} \parallel \hat{j}\) ,矛盾.


事实上, 真正的外积仅存在于一维, 三维和七维空间中, 是二元数, 四元数和八元数生成的.

normed division algebra over R can only happen on dim 1 2 4 and 8 by Hurwitz's theorem

根据黎曼几何的理论 矢量是一阶外微分 两个矢量的叉乘是二阶外微分(n阶外微分的叉积是n+1阶外微分)
只不过根据理论n-1阶外微分与1阶外微分同构可以看成同样的东西 而对于3维空间n等3 n-1刚好等于2即三维流型中一阶外微分与二阶外微分是同一个东西 所以三维空间中矢量叉乘等于矢量

作者:chris
链接:https://www.zhihu.com/question/60885679/answer/193594439

\(\R^n\)里可以定义n-1个向量的叉乘,就是以标准基为第一行、n-1个向量为后面n-1行得到的n*n行列式展开后的结果,几何意义就是跟这n-1个向量垂直的、长度为它们张成的平行超多面体的体积的、方向与定向相符的一个向量。

作者:Yuhang Liu
链接:https://www.zhihu.com/question/60885679/answer/193543654

详情见外代数, 格拉斯曼代数, 李群, 微分几何等

格拉斯曼代数是各阶反变张量空间的并构成的代数

这玩意的抽象程度真是超出我的想象啊, 大概就是斯托克斯公式推广出来的什么东西吧

所以思考题的条件错了, 四维空间的外积, 按照定义应当是基向量和三个向量的矩阵的行列式. 那么第一问答案自然也是错的.

按照现有数学理论体系, 只有四元数和八元数理论下的三维空间的外积和七维空间的外积有意义. 四元数是数学家哈密顿Hamilton 弄出来的, 那么\(\nabla\) operator 又名 Hamiltonian 就很好理解了:

\[\det \left( \left[ \begin{matrix} x &v_1 &w_1 \\ y &v_2 &w_2 \\ z &v_3 &w_3 \end{matrix} \right] \right) \rightarrow \det \left( \left[ \begin{matrix} \hat{i} &v_1 &w_1 \\ \hat{j} &v_2 &w_2 \\ \hat{k} &v_3 &w_3 \end{matrix} \right] \right) \rightarrow \det \left( \left[ \begin{matrix} \hat{i} &\frac{\partial \ }{\partial x} &P \\ \hat{j} &\frac{\partial \ }{\partial y} &Q\\ \hat{k} &\frac{\partial \ }{\partial z} &R \end{matrix} \right] \right) \]


当然, 上面介绍的内积的定义中提到的平行四边形的面积依然是有用的

它代表了叉积结果的长度——叉积结果是一个三位空间中垂直于两个向量的伪向量(pseudo vector)

方向则需要右手定则

三维叉积, 需要两个线性相关的向量, 公式如下

\(\left[ \begin{matrix} v_1 \\ v_2 \\ v_3 \end{matrix} \right] \times \left[ \begin{matrix} w_1 \\ w_2 \\ w_3 \end{matrix} \right] = \det \left( \left[ \begin{matrix} \hat{i} &v_1 &w_1 \\ \hat{j} &v_2 & w_2 \\ \hat{k} &v_3 &w_3 \end{matrix} \right] \right)\)

注意转置不改变行列式的值, 用列向量表达保持理论的统一性

8.3 叉积中的对偶性

From [Grothendieck] , I have also learned not to t ake gloryin the difficulty of a proof: difficulty means we have not understood. The ideal is to be able to paint a landscape in which the proof is obvious.

-Pierre Deligne

从他( 格罗滕迪克) 和他的作为中, 我还学到了一点:不以高难度的证明为傲, 因为难度高意味着我们还不理解理想的情况是能够绘出一幅美景, 而其中的证明显而易见。

-皮埃尔·德利涅

再次说明一下对偶性(Duality)应用于线性变换

当一个多维空间通过线性变换为一条数轴时, 它都会和该空间中某个向量唯一对应——应用线性变换和与这个向量点乘等价

\(L(\vec{v}) \rightleftharpoons dual\ vector \ \vec{v}\)

所以叉积是一个根据\(\vec{v}\)\(\vec{w}\) 从三维空间到一维空间的线性变换

很显然, 张成一个三位空间需要三个不共线的向量(关于基底和\(\vec{v}\)\(\vec{w}\) 是否要求不共线我还不清楚), 而这个线性变换的结果实际上被压缩到了\(\vec{v}\)\(\vec{w}\) 张成的平面的 法向量所在的 一维空间上.

n=3 , n-1阶外微分与1阶外微分的叉积同构

抽象代数(abstract algebra)中,同构(isomorphism)指的是一个保持结构的双射(bijection)。在更一般的范畴论语言中,同构指的是一个态射,且存在另一个态射,使得两者的复合是一个恒等态射

集合的一个等价关系决定了该集合的一种分类

然后找到这种线性变换的对偶向量(Dual vector) 就是这个叉积的结果

8.4 推导过程从学生的思路开始

再前面介绍的二维空间的叉积之中(实际上这种定义方式是错的), 几何上说这个叉积是两个向量张成的平行四边形的面积, 并且带有正负号.

\(\vec{v} \times \vec{w} = \underbrace{ \det \left( \left[ \begin{matrix} 3 &2 \\ 1 &-1 \end{matrix} \right] \right) }_{Area\ of\ parallelogram}\)

如果取推广到三位空间中, 他们会认为这是三个向量间的运算

\(f_{3\ dimension}(\vec{u} , \vec{v}, \vec{w}) = \vec{u} \times \vec{v} \times \vec{w} =\underbrace{\det \left( \left[ \begin{matrix} u_1 &v_1 &w_1 \\ u_2 &v_2 &w_2 \\ u_3 & v_3 &w_3 \end{matrix} \right] \right) }_{Volume\ of\ parallelepiped}\)

然后根据顺序关系确定其正负号,

如果我们将第一个向量看作可变向量, 比如(x,y,z), 保持\(\vec{v}\)\(\vec{w}\) 不变

\[f_{\vec{v} \times \vec{w}}(x,y,z) = \det \left( \left[ \smash{ \underbrace{ \begin{matrix} x \\ y \\ z \end{matrix} }_{\small Variable} \overbrace{ \begin{matrix} v_1 \\ v_2 \\ v_3 \end{matrix} }^{\vec{v}} } \begin{matrix} w_1 \\ w_2 \\ w_3 \end{matrix} \right] \right) \]

这样的一个函数 , 从几何意义上考虑, 这个函数就是说任意向量(x,y,z) 与 \(\vec{v}\)\(\vec{w}\) 确定的平行六面体的体积.

这个函数是一个线性函数, 这个带入线性函数的定义就可以知道

因为它是一个线性函数, 那么你可以通过一个矩阵来描述这个函数:

\[\underbrace{ \left[ \begin{matrix} ? &? &? \end{matrix} \right] }_{1 \times 3\ matrix} \left[ \begin{matrix} x \\y \\z \end{matrix} \right] = \det \left( \left[ \begin{matrix} x &v_1 &w_1\\ y &v_2 &w_2\\ z &v_3 &w_3 \end{matrix} \right] \right) \]

接着用对偶性找它的对偶向量:

\[\begin{align} \overbrace{ \left[ \begin{matrix} p_1 \\p_2 \\p_3 \end{matrix} \right] }^{\vec{p}} \left[ \begin{matrix} x \\y \\z \end{matrix} \right] = & \det \left( \left[ \begin{matrix} x &v_1 &w_1\\ y &v_2 &w_2\\ z &v_3 &w_3 \end{matrix} \right] \right) \\ \\ p_1\cdot x + p_2 \cdot y + p_3 \cdot z =& x(v_2\cdot w_3 - v_3 \cdot w_2)+\\ &y(v_3\cdot w_1 - v_1 \cdot w_3)+\\ &z(v_1\cdot w_2 - v_2 \cdot w_1) \\ \downarrow \\ p_1 = & v_2\cdot w_3 - v_3 \cdot w_2 \\ p_2 = &v_3\cdot w_1 - v_1 \cdot w_3\\ p_3 = &v_1\cdot w_2 - v_2 \cdot w_1 \end{align} \]

事实上\(\hat{i},\hat{j},\hat{k}\) 在行列式中只是取代了(x,y,z)的作用, 暗示这是一个坐标

这个古怪的向量\(\vec{p}\) 与某个向量(x,y,z)点乘时, 结果等于(x,y,z) 和\(\vec{v},\vec{w}\) 张成的平行六面体的有向体积

8.5 补充

3b1b的解释到这里就算完了, 但是我还是继续深入了一点:

8.5.1 关于叉乘结果向量长度

事实上, 向量\(\vec{f}(x,y,z)\) 三个参数x,y,z代表的是三维空间中的基底

\(\vec{f}(x,y,z), \vec{v},\vec{w}\) 张成的平行六面体体积表达式:

\[V= \det \left( \left[ \begin{matrix} x &v_1 &w_1\\ y &v_2 &w_2\\ z &v_3 &w_3 \end{matrix} \right] \right) \]

如果将(x,y,z)单位化

\[\frac V{\sqrt{x^2+y^2+z^2} }= \det \left( \left[ \begin{matrix} \frac x{\sqrt{x^2+y^2+z^2} } &v_1 &w_1\\ \frac y{\sqrt{x^2+y^2+z^2} } &v_2 &w_2\\ \frac z{\sqrt{x^2+y^2+z^2} } &v_3 &w_3 \end{matrix} \right] \right) \]

这个有向行列式的值就只和\(\vec{v},\vec{w}\) 有关, 这确定了叉乘结果向量长度的唯一性

8.5.2 关于叉乘向量结果的方向

根据行列式的性质, 将\(\vec{f}(x,y,z)\) 分解为 和\(\vec{v},\vec{w}\) 线性相关的部分\(\vec{f}_{L}\) 以及 和\(\vec{v},\vec{w}\) 线性无关的部分\(\vec{f}_{N}\) , 则

\[\begin{align} \det([\begin{matrix} \vec{f}_L &\vec{v} &\vec{w} \end{matrix}]) =& 0 \\ \det([\begin{matrix} \vec{f}_N &\vec{v} &\vec{w} \end{matrix}]) =& S_{\vec{v} \times \vec{w}} \end{align} \]

故这个行列式只会表达出和\(\vec{v},\vec{w}\) 都垂直的部分

这意味着有向矩阵\(\left( \left[ \begin{matrix} x &v_1 &w_1\\ y &v_2 &w_2\\ z &v_3 &w_3 \end{matrix} \right] \right)\)方向是垂直于\(\vec{v},\vec{w}\) , 且符合右手定则的

小结

如果说\(f(x,y,z)\) 满足:

\[f(x,y,z) = \vec{u}(x,y,z) \times \vec{v} \times \vec{w} = \underbrace{ \det \left( \left[ \begin{matrix} x &v_1 &w_1 \\ y &v_2 &w_2 \\ z & v_3 &w_3 \end{matrix} \right] \right) }_{Volume\ of\ parallelepiped} \]

它显然是一个和(x,y,z)相关的函数, 那么它也是一个从三维空间到一维空间的线性变换:

\[L(\vec{v}(x,y,z)) = \det R = \det \left( \left[ \begin{matrix} x &v_1 &w_1 \\ y &v_2 &w_2 \\ z & v_3 &w_3 \end{matrix} \right] \right) \]

行列式是一个数字.

上文提到, 多维空间到一维空间的线性变换, 可以用它的对偶向量\(L^{\mathsf T}\)的点乘关系表达

\[\begin{align} L_{ 1 \times 3 }(\vec{v}(x,y,z))= \left[ \begin{matrix} p_1 &p_2 &p_3 \end{matrix} \right] \cdot& \left[ \begin{matrix} x \\ y \\ z \end{matrix} \right] \\ L^T \cdot \vec{v} = \left[ \begin{matrix} p_1 \\ p_2 \\ p_3 \end{matrix} \right] \cdot& \left[ \begin{matrix} x \\ y \\ z \end{matrix} \right] = p_1 \cdot x + p_2 \cdot y + p_3 \cdot z \end{align} \]

从几何意义分析可以知道, 三阶行列式是三维空间内平行六面体的体积\(V\)(volume of parallelepiped) , 而二阶行列式是平行四边形的面积. 如果重点关注\(\vec{v},\vec{w}\)张成的平行四边形面积\(S_{\vec{v} \cdot \vec{w}}\) 不难看出:

\[\begin{align} V(x,y,z)&=\det \left( \left[ \begin{matrix} x &v_1 &w_1 \\ y &v_2 &w_2 \\ z & v_3 &w_3 \end{matrix} \right] \right) \\&=|\vec{p}(x,y,z)| \times S_{\vec{v} \cdot \vec{w}} \\&= \left[ \begin{matrix} p_1 \\ p_2 \\ p_3 \end{matrix} \right] \cdot \left[ \begin{matrix} x \\ y \\ z \end{matrix} \right] = p_1 \cdot x + p_2 \cdot y + p_3 \cdot z \end{align} \]

于是向量\(\forall\vec{v}(x,y,z) \in \R^3\) 代表了整个\(\R^3\) 空间, 当行列式\(V(x,y,z)\)剥离了\(|\vec{v}(x,y,z)|\) 这个高, 剩下的长度, 就是向量 \(\vec{p} = \vec{v} \times \vec{w}\) 的长度.

接着用行列式的性质证明\(\vec{p} \perp \vec{v} , \vec{p} \perp \vec{w}\) ,就完成了用几何方式说明\(\vec{v} \times \vec{w}\) 表达的意义

8.6 三维空间中叉积和点积的辨析[未完]

虽然都是三位空间到一维空间的线性变换

在三维空间中, 两个向量\(\vec{v} , \vec{w}\) 的点积和叉积有怎样的异同?

点积: 两个三维向量(不要求线性无关) 张成一个二维空间, 然后用对称抽, 对偶性等方式, 产生一个可交换的线性变换\(L_{1 \times 2}(\vec{v})\) , 最后得到了一个一维空间上的向量.

叉积:用三个三维向量\(\vec{p},\vec{v},\vec{w}\) 张成的平行六面体体积\(V\)\(|\vec{p}|\) 的 比值定义了 \(\vec{v} \times \vec{w}\) 的长度, 用\((\hat{i} , \hat{j} ,\hat{k})\) 替换\((x, y, z)\), 利用行列式的性质保证\(\vec{p} \perp \vec{v} , \vec{p} \perp \vec{w}\) , 最后得到了一个三维空间中的向量.

\(\vec{v}(x, y, z) \rightarrow (\hat{i} , \hat{j} ,\hat{k})\) 这种替换, 实际上是用 (x,y,z)的落点, 来表达一组基底的线性变换!

这是一个近世代数的观点, 三维空间中向量\(\vec{v}\)的三个坐标参数, 构成的空间, 和三位空间同构

9.基变换

Mathematics is the art of giving thesame name to different things
-Henri Poincare.

数学是一门赋予不同事物相同名称的艺术。
——昂利· 庞加莱

9.0 关于哈密顿算子

8.2 思考题 中, Hamiltonian部分 ,提到过这样一种"基变换":

\[\det \left( \left[ \begin{matrix} x &v_1 &w_1 \\ y &v_2 &w_2 \\ z &v_3 &w_3 \end{matrix} \right] \right) \rightarrow \det \left( \left[ \begin{matrix} \hat{i} &v_1 &w_1 \\ \hat{j} &v_2 &w_2 \\ \hat{k} &v_3 &w_3 \end{matrix} \right] \right) \rightarrow \det \left( \left[ \begin{matrix} \mathrm dy \mathrm dz &\frac{\partial \ }{\partial x} &P \\ \mathrm dx \mathrm dz &\frac{\partial \ }{\partial y} &Q\\ \mathrm dx \mathrm dy &\frac{\partial \ }{\partial z} &R \end{matrix} \right] \right) \]

好吧, 那么这种同构是怎么回事?

\(\mathrm dy \mathrm dz , \mathrm dx \mathrm dz , \mathrm dx \mathrm dy\) 作为第二类曲面积分中曲面\(\Sigma\)的微元实际上也是和三维空间同构的, 想象一下:

曲面\(\Sigma\)可以在三维空间中表出, 而\(\mathrm dy \mathrm dz , \mathrm dx \mathrm dz , \mathrm dx \mathrm dy\) 这三个面积微元正好也是曲面的基底 , 就像围成一个魔方需要6个面, 事实上只有三种面而已(侧面, 前面, 上面)

\(\nabla\) operator 是一个输出结果为向量的函数, 所以向量能做的它也能做, 要注意并不是\(\nabla (f) = \nabla f\) , e而是\(\nabla \cdot \vec{f}(x,y,z)\)

9.1 缩放, 封装与替换

一个向量$ \left[ \begin{matrix}
3 \
2 \
\end{matrix} \right]$ 描述了空间中它终点落点在(3,2) 上, 同时也可以看作它将基底\((\hat{i} ,\, \hat{j} ) ^ \mathsf T\) 缩放为

\(\left[ \begin{matrix} 3 \\ 2 \\ \end{matrix} \right] \cdot \left[ \begin{matrix} \hat{i} \\ \hat{j} \end{matrix} \right] = \left[ \begin{matrix} 3\hat{i} \\ 2\hat{j} \end{matrix} \right]\) 这个形式, 然后经行封装, 省略了后面的\(\hat{i}, \hat{j}\) ,即x的位置代表\(\hat{i}\) ,y的位置代表\(\hat{j}\) , 不共线的基底\(\hat{i}, \hat{j}\) 用一个有序数对来表达自然是没问题的, 这两者都和二维空间同构(也许\(\hat{i}, \hat{j}\) 不一定是二维向量)

发生在向量和一组数之间的任意一种转化, 都被称为坐标系(Coordinate system), 而\(\hat{i}, \hat{j}\) 被称为基向量(Basis vectors) , 本章要讨论的就是基向量被替换的情况.

不同的基底得到表达同一个向量自然是要用不同的坐标.

基底就像是不同的语言表述同一个客观物体:

对于一个向量\(\vec{v}\)

\(\hat{i} = \left[ \begin{matrix} 2 \\ 1 \\ \end{matrix} \right] , \hat{j} = \left[ \begin{matrix} -1 \\ 1 \\ \end{matrix} \right] ,\\ \vec{v} = \left[ \begin{matrix} \frac{5}{3} \\ \frac{1}{3} \\ \end{matrix} \right]\)

\(\hat{i} = \left[ \begin{matrix} 1 \\ 0 \\ \end{matrix} \right] , \hat{j} = \left[ \begin{matrix} 0\\ 1 \\ \end{matrix} \right] ,\\ \vec{v} = \left[ \begin{matrix} 3 \\ 2 \\ \end{matrix} \right]\)

不同的基底对于\(\hat{i} , \, \hat{j}\) 的定义不同, 但是原点都在同一处, 这意味着一些基底可以通过线性变换, 即矩阵相互转化:

\[\left[ \begin{matrix} 2 &-1\\ 1 &1\\ \end{matrix} \right]\left[ \begin{matrix} -1 \\ 2 \\ \end{matrix} \right] = -1\left[ \begin{matrix} 2 \\ 1 \\ \end{matrix} \right] +2\left[ \begin{matrix} -1 \\ 1 \\ \end{matrix} \right] = \left[ \begin{matrix} -4 \\ 1 \\ \end{matrix} \right] \]

构成这个矩阵只需要将需要替换的基向量排列起来组成矩阵:

\[\hat{i} = \left[ \begin{matrix} 2 \\ 1 \\ \end{matrix} \right] , \hat{j} = \left[ \begin{matrix} -1 \\ 1 \\ \end{matrix} \right] \\ A=\left[ \begin{matrix} \hat{i} &\hat{j} \end{matrix} \right] =\left[ \begin{matrix} 2 &-1\\ 1 &1\\ \end{matrix} \right] \]

矩阵也可以说是逐列的描述了每个基向量, 矩阵对列向量的乘法可以看成是替换基底的操作

毕竟, 因为基底的差异而产生的误会, 正是因为我们隐式的省略了基底在向量元中的表达, 我们通过矩阵声明, 或者说澄清了这个误会, 就实现了沟通

假设在标准基底之中执行一个旋转(rotting)操作, 那么要怎样才能在另一组基底中重现出来?

第一步转换乘该基底, 第二步旋转操作, 第三步还原到标准基底, 将该基底看成标准基底

\[\underbrace{ \left[ \begin{matrix} 2 &-1\\ 1 &1\\ \end{matrix} \right] ^{-1} \overbrace{ \left[ \begin{matrix} 0 &-1\\ 1 &0\\ \end{matrix} \right] \left[ \begin{matrix} 2 &-1\\ 1 &1\\ \end{matrix} \right] }^{Translate\ and\ operate} }_{Expresssion\ in\ new\ basis} \vec{v}\leftarrow This\ vector\ is\ expressed\ in\ new\ basis \]

9.2 如何翻译一个矩阵?

总的来说, 形如\(A^{-1}MA\) 的矩阵表达式往往暗示数学上的一种转移作用, 中间的矩阵\(M\)代表着变换操作, 而外面的两个矩阵\(A^{-1}A\) 则是视角上的变换——\(A\)由新的基底组成

\[\begin{align} A=& \left[ \begin{matrix} \vec{i} &\vec{j} \end{matrix} \right] \\ =& \left[ \begin{matrix} 2 &-1\\ 1 &1\\ \end{matrix} \right]\\ \vec{i} =& \left[ \begin{matrix} 2 \\ 1 \\ \end{matrix} \right] \quad \vec{j}= \left[ \begin{matrix} -1\\ 1\\ \end{matrix} \right] \end{align} \]

9.3 others

行列式描述的是空间被线性变换\(M\)放大的倍数, 基向量\(A\)改变不会导致行列式\(\det M\) 改变

10 特征值和特征向量

Last time I asked: What does mathernatics mean to you ? ' and some people answered: The manipulation of numbers, the manipulation of structures. '

And if I had asked what music means to you, would you have answered :The manipulation Of notes ?' ”
-Serge Lang

“ 上一次演讲中我问道:数学对你来说意味着什么? 有些人回答: ' 处理数字, 处理结构。'

那么如果我问音乐对你来说意味着什么, 你会回答' 处理音符, 吗? ”
——塞尔日·兰

10.1 基础

对特征向量和特征值感到疑惑, 是因为基础知识薄弱, 而不是因为这些知识不够直观

对于普通向量:

它们会在线性变换之后离开所张成的空间

而某些向量不会, 就好像这个线性变换只是对它做了缩放操作一样.

其它不在线上的向量或多或少都被旋转(rotting)了, 而那些在线上的向量只是被缩放

这些没有离开线上的向量就是特征向量(Eigenvectors)

每个特征向量都属于一个特征值

又例如说在三位空间中一个三维旋转变换, 如果能找到它的特征向量, 那么在考虑这个变换的旋转时, 这个特征向量就再其旋转轴上! 但是这种单纯的旋转变换特征值(Eigenvalue) 必须为1, 因为它没有缩放操作!

根据矩阵来认识线性变换的时候总是依赖于基底, 并不是那么直观. 更常见的方法是认识它的特征值和特征向量! 因为特征向量时这些变换中变化最小的:

\[A\vec{v}=\lambda \vec{v}\\ (A-\lambda I)\vec{v} = \vec{0}\\ A-\lambda I = \left[ \begin{matrix} 3-\lambda &1 &4\\ 1 &5-\lambda &9\\ 2 &6 &5-\lambda \end{matrix} \right] .etc \]

当写到这里的时候就知道, 如果一个非零向量\(\vec{v}\) 乘一个矩阵等于零向量, 那么说明这个矩阵是退化的.(即它的列向量组成的平行六面体的体积为0)

但是请注意不是所有的二维空间内的矩阵都有特征向量(至少在实数域内没有)

比如rotting 90°的线性变换就没有

\[\begin{align} A&=\left[ \begin{matrix} 0 &-1\\ 1 &0 \end{matrix} \right] \\ A-\lambda I &= \left[ \begin{matrix} -\lambda &-1\\ 1 &-\lambda \end{matrix} \right] \\ &=\lambda^2+1 =0 \\ &\Rightarrow \lambda = i\ or \lambda = -i \end{align} \]

这是为什么复数和旋转有关.

10.2 不变子空间与特征基

这些不会随着线性变换改变的向量, 构成了线性变换的不变子空间.

有一些特殊情况, 使得属于某单个特征值的特征向量可以不在一条直线上:

\[A=\left[ \begin{matrix} 2 &0\\ 0 &2 \end{matrix} \right] \\ \]

这个矩阵对应的线性变换, 整个空间中的向量都是属于特征值为2的特征向量

考虑: 如果特征向量正好是基向量会怎样?

那么用这些基向量线性表出的向量均是特征向量, 不会旋转!

那么它们的计算将是相当方便的!

对角矩阵(Diagonal matrices)在进行矩阵幂乘法时有非常好的特性, 如便于自乘

\[A=\left[ \begin{matrix} 2 &0 &0\\   0 &3 &0\\ 0 &0 &1 \end{matrix} \right] , \vec{v} = \left[ \begin{matrix} x\\   y\\ z \end{matrix} \right] \\ A^{10}\vec{v} = \left[ \begin{matrix} 2^{10}x\\   3^{10}y\\ 1^{10}z \end{matrix} \right] \\ \]

故, 如果我们通过变换基底, 将特征值换为基底, 那么就能方便的做自乘运算! 也是相似对角化的理由.

st=>start: 开始
step1=>operation: 寻找特征值
step2=>operation: 寻找特征向量
step3=>operation: 经行基变换
step4=>operation: 自乘
e=>end: 结束

st(right)->step1->step2->step3->step4->e

\[A= \left[ \begin{matrix} 3 &1\\ 0 &2 \end{matrix} \right] \\ M^{-1}AM= \left[ \begin{matrix} 1 &-1\\ 0 &1 \end{matrix} \right]^{-1} \left[ \begin{matrix} 3 &1\\ 0 &2 \end{matrix} \right] \left[ \begin{matrix} 1 &-1\\ 0 &1 \end{matrix} \right] = \left[ \begin{matrix} 3 &0\\ 0 &2 \end{matrix} \right] \]

10.3 习题

计算\(A=\left[ \begin{matrix} 0 &1\\ 1 &1 \end{matrix} \right] \\\)\(A^2, A^3\) 并观察规律

如果说这个矩阵的从属于两个特征值的特征向量分别是

\[\vec{v}_1 = \left[ \begin{matrix} 2\\ 1+\sqrt{5} \end{matrix} \right] , \vec{v}_2= \left[ \begin{matrix} 2\\ 1-\sqrt{5} \end{matrix} \right] \\ \]

尝试先转换为特征基, 然后在新的表象下计算\(A^n\)然后转换到标准基, 观察最终公式

答:

\[\begin{align} A^2=&\left[ \begin{matrix} 1 &1\\ 1 &2 \end{matrix} \right] \\ A^3=&\left[ \begin{matrix} 1 &2\\ 2 &3 \end{matrix} \right] \\ V^{-1}AV=& -\frac{1}{4\sqrt{5}} \left[ \begin{matrix} 1-\sqrt{5} &-2\\ -(1+\sqrt{5}) &2 \end{matrix} \right] \left[ \begin{matrix} 0 &1\\ 1 &1 \end{matrix} \right] \left[ \begin{matrix} 2 &2\\ 1+\sqrt{5} &1-\sqrt{5} \end{matrix} \right]\\ =& \left[ \begin{matrix} \frac{1+\sqrt{5}}{2} &0\\ 0 &\frac{1-\sqrt{5}}{2} \end{matrix} \right] \\ \therefore A^n=&V(V^{-1}A^nV)V^{-1}\\ =& -\frac{1}{4\sqrt{5}} \left[ \begin{matrix} 2\lambda^{n}_{1}(1-\sqrt{5})-2\lambda^{n}_{2}(1+\sqrt{5}) &-4\lambda^{n}_{1}+4\lambda^{n}_{2}\\ -4\lambda^{n}_{1}+4\lambda^{n}_{2} &-2\lambda^{n}_{1}(1+\sqrt{5})+2\lambda^{n}_{2}(1-\sqrt{5}) \end{matrix} \right]\\ \lambda_1 =&\frac{1 + \sqrt 5}{2} , \lambda_2 =\frac{ 1 -\sqrt 5}{2} \end{align} \]

就不化简了

11.抽象空间

"Such axioms, together with other unmotivated definitions,serve mathematicians mainly by making it difficult for the uninitiated to master their subject, thereby elevating its authority."
-Vladimir Arnold

这些公理, 同其他动机不明的定义一起, 让门外汉难以掌握数学. 它们主要通过这样的方式协助数学家, 从而提升数学的权威性.
——弗拉基米尔· 阿诺尔德

11.1 空间性

向量可以用实数组或者有向线段来表示, 但是这并不代表向量仅仅止步于此. 其它有向量性质的东西, 如函数: 实际上函数就是一系列二维空间上的有序数对的集合

对于对于线性代数中的方法, 映射到函数中, 用线性代数理论操纵和改变一个函数, 只需要数乘向量相加两种, 那么在改变函数的是也只会用到这两种方法:

\[L(\frac{1}{9}x^3-x)=\frac{1}{3}x^2-1 \]

比如说求导[^1]就是这样的一个例子, 求导是一个线性算子 (linear operators), 或者说是一种线性变换

算子: 映射到自身向量空间的变换

验证一个函数变换是否为线性变换, 通过 第三章 线性变换定义

一旦满足这个定义, 那么一个线性变换可以通过它对基向量的作用来完全描述, 这使得矩阵乘法成为可能.

11.2 从函数到向量空间的公理定义

利用矩阵来推导求导会有些棘手, 因为函数空间倾向有无穷维, 所以3b1b仅仅研究多项式子空间:

在多项式子空间中, 取x的不同幂次作为基函数(basis function)生成整个多项式空间, 就像基底那样.

但是, 这个基向量组, 有可列无穷多个

\[\begin{align} \mathsf{Infinitely\ many}&\left\{ \begin{matrix} b_0(x)=1\\ b_1(x)=x\\ b_2(x)=x^2\\ b_3(x)=x^3\\ \vdots \end{matrix} \right . \\ \therefore 1x^2+3x+5\cdot1= &\left[ \begin{matrix} 5\\ 3\\ 1\\ 0\\ \vdots \end{matrix} \right] \\ \frac{\mathrm d}{\mathrm dx }&(5+4x+5x^2+1x^3) =3x^3+10x+4\\ &\left[ \begin{matrix} 0 &1 &0 &0 &\ldots \\ 0 &0 &2 &0 &\ldots\\ 0 &0 &0 &3 &\ldots\\ 0 &0 &0 &0 &\ldots\\ \vdots &\vdots &\vdots &\vdots &\ddots\\ \end{matrix} \right] \left[ \begin{matrix} 5\\ 4\\ 5\\ 1\\ \vdots \end{matrix} \right]= \left[ \begin{matrix} 1\cdot4\\ 2\cdot5\\ 3\cdot1\\ 0\\ \vdots \end{matrix} \right] \end{align} \]

事实上线性代数中的概念在分析之中也有对应名称

Linear algebra concepts Alternate names when applied to function
Linear transformations Linear operators
Dot products Inner products
Eigenvectors Eigenfunctions

我们可以看出, 实际上向量是一系列抽象事物的代称, 只要研究对象满足合理的数乘和相家的概念 .

为了防止各种抽象空间定义混乱, 所以规定了向量加法和向量数乘必须遵守的公理(Axioms):

  1. 向量加法必须满足结合律
  2. 向量加法必须满足交换律
  3. \(\forall \vec{v}, \exist\vec{0},\ \vec{0} +\vec{v} = \vec{v}\) 零元, 原点必须存在
  4. 每个向量的加法逆元必须存在
  5. \(a(b\vec{v}) = (ab)\vec{v}\) 标量乘法与标量的域乘法相容
  6. \(1\vec{v} = \vec{v}\) 标量乘法的单位元存在
  7. \(a(\vec{v}+\vec{w} ) = a\vec{v} + a\vec{w}\) 标量乘法对向量加法满足分配律
  8. \((a+b)\vec{v} = a\vec{v} +b\vec{v}\) 标量乘法对域加法满足分配律

只要满足这些公理(Axioms) , 定义出来的向量空间就和线性空间同构. 换句话说, 仅需要公理表述就能抽象所有的结论.

在学习时需要一个具体的想象意象, 但是随着学习的深入, 线性代数应用区域的拓展, 向量的定义也越来越抽象, 去适应各个不同的领域.

st=>start: 接触新理论
step1=>operation: 寻找一个具体的, 便于研究的意象
step2=>operation: 用意象认识理论
step3=>operation: 根据公理化定义拓展到其它领域
step4=>operation: 将意象抽象化,用公理判断其定义
ed=>end: 在其它研究中得到这个理论的经验

st(right)->step1->step2->step3->step4->ed

Abstractness is the price of generality

抽象是普适的代价

Best luck with your future learning.

12.克拉默法则

12.1 不变的量

高斯消元法比克拉默法则要快, 克拉默法则纯粹就是为了拓宽视野, 通过研究克拉默法则来认识和巩固线性代数中知识

首先. 记住矩阵的列向量反应了矩阵是如何变换空间的, 这个矩阵必须是在乘法的左边

\(A\cdot \vec{v}\) 是反应了\(A\)\(\vec{v}\) 所在的空间的变换

当出现\(\det A = 0\) 的情况时, 要么解在退化的空间中, 有无穷多解, 要么不在退化的空间中, 无解.

下面有一个错误但是很有用的思路:

\[\begin{align} \left[ \begin{matrix} x\\ y \end{matrix} \right] \cdot \left[ \begin{matrix} 1\\ 0 \end{matrix} \right] = x \Rightarrow T\left( \left[ \begin{matrix} x\\ y \end{matrix} \right] \right) T\left( \left[ \begin{matrix} 1\\ 0 \end{matrix} \right] \right) = x\\ \left[ \begin{matrix} x\\ y \end{matrix} \right] \cdot \left[ \begin{matrix} 0\\ 1 \end{matrix} \right] = x \Rightarrow T\left( \left[ \begin{matrix} x\\ y \end{matrix} \right] \right) T\left( \left[ \begin{matrix} 0\\ 1 \end{matrix} \right] \right) = y \end{align} \]

但是因为大多数线性变换会改变点积的值, 所以这个方法不成立

但是对于不改变点积的线性变换, 由于体格特殊名字叫正交变换:

\[if\ T(\vec{v})\cdot T(\vec{w}) = \vec{v} \cdot \vec{w}\\ \forall \vec{v},\vec{w}, \quad T\ is "orthonormal" \]

正交变换不改变基底夹角, 基底在变换后依然保持单位长度, 且相互垂直

可以想象为矩阵的旋转或者翻转. 求解正交矩阵线性系统非常简单, 因为它们的点积是不变的. 故只需要找点积即可.

即已知输出向量和矩阵列向量的点积, 分别等同于位置输入向量和各个基向量的点积:

\[\begin{align} \left[ \begin{matrix} \cos 30^{\circ} &-\sin30^\circ\\ \sin 30^\circ &\cos 30^\circ \end{matrix} \right] \left[ \begin{matrix} x\\ y \end{matrix} \right] = & \left[ \begin{matrix} 1\\ 2 \end{matrix} \right] \\ x= & \left[ \begin{matrix} 1\\ 2 \end{matrix} \right] ^{\mathsf T} \left[ \begin{matrix} \cos 30^{\circ} &-\sin30^\circ\\ \sin 30^\circ &\cos 30^\circ \end{matrix} \right] \underbrace{ \left[ \begin{matrix} 1\\ 0 \end{matrix} \right] }_{basis}\\ =& \left[ \begin{matrix} 1\\ 2 \end{matrix} \right] ^{\mathsf T} \left[ \begin{matrix} \cos 30^\circ \\ \sin 30^\circ \end{matrix} \right] \\ \\ y= & \left[ \begin{matrix} 1\\ 2 \end{matrix} \right] ^{\mathsf T} \left[ \begin{matrix} \cos 30^{\circ} &-\sin30^\circ\\ \sin 30^\circ &\cos 30^\circ \end{matrix} \right] \left[ \begin{matrix} 0\\ 1 \end{matrix} \right] \\ = & \left[ \begin{matrix} 1\\ 2 \end{matrix} \right] ^{\mathsf T} \left[ \begin{matrix} -\sin 30^\circ \\ \cos 30^\circ \end{matrix} \right] \\ \end{align} \]

正交隐藏的信息很多, 善于利用正交方便解题 , 详情见施密特正交化

这个思路虽然对非标准正交基矩阵不起作用

所以要思考其它在矩阵变换后保持不变的关于x和y的几何转换

12.2 行列式

比如在二维空间中, \(\hat{i} ,\, \hat{j}\) 是改变前的基底, 由线性变换矩阵\(A=[\hat{a},\hat{b}]\), \(\hat{a},\hat{b}\) 是改变后的基底

\[A[\hat{i} ,\, \hat{j}]=[\hat{a},\hat{b}]\\ A\hat{i}=\hat{a}\\ A\hat{j}=\hat{b}\\ A\vec{w}=\vec{v} \]

那么未知向量\(\vec{w}=(x,y)\) 中, 将向量\(\vec{w}\) 替换到某个基向量的位置, 其它基向量不变, 就能得到对应的面积 \(1 \cdot y\)

\[x=\det|[\vec{w},\hat{i}]| = x \cdot 1 = S_x \\ y=\det|[\hat{i},\vec{w}]| = 1 \cdot y = S_y \]

并且这个结论可以向任意有限维度推广.

线性变换替\(A\)换了基底, 也改变了未知向量\(\vec{w}\) 的位置, 但是它对于向量\(\vec{v} = A\vec{w}\)新基底 \(\hat{a}, \hat{b}\)所张成的平行四边形面积\(S_x^\backprime, S_y^\backprime\)

相对于原来\(\vec{w}\) 与基底 \(\hat{i} ,\, \hat{j}\) 所张成的平行四边形面积\(S_x ,S_y\)

改变程度是可以计算的, 根据行列式的几何意义 \(\frac{S_x}{S_x^\backprime} =\det A\) . 则有

\[\begin{align} \frac{\det A[\vec{w}, \hat{j}] }{\det A}=& \frac{\det [A\vec{w}, A\hat{j}] }{\det A}\\ =& \frac{\det [\vec{v}, \hat{b}] }{\det A} = \frac{S_x^\backprime}{\frac{S_x^\backprime}{S_x}} \\ =& \frac{S_x^\backprime}{S_x^\backprime } \cdot S_x = x \end{align} \]

\(\infty\).

补充拓展, 和未完成的部分:

  1. 规定,向量乘法中, 矩阵一定在左边, 向量一定是列向量. 这是因为向量在右边的情况可以用转置\(\mathsf T\) 操作得到
  2. 矩阵乘法中, 左边的矩阵统统可以看成是在改变基底. 右边的矩阵则是在描绘一种线性变换, 在这其中难免会出现矩阵退化, 空间维数改变的情况, 这也是为什么秩如此重要.
  3. 施密特正交化

  1. 形式化证明也是由机器完成的 ↩︎

posted @ 2021-08-28 16:23  Ik4ruga  阅读(159)  评论(0)    收藏  举报