曲高和寡往往会成为一种错觉,倘若思考真的精妙到了只有自己才能理解,推广它便是理所应当的下一步

范数||x||(norm)笔记

1. 范数的含义和定义

范数是具有“长度”概念的函数。在线性代数、泛函分析及相关领域,是一个函数,它为向量空间内的所有向量赋予非零的正的长度或大小。另一方面,半范数可以为非零的向量赋予零长度。

例如,在二维欧式几何空间R2中(简单理解就是二维坐标系)就有欧式范数。在这个向量空间的元素(比如向量(3,7))常常在笛卡尔坐标系统中被画成一个从原点出发的箭头,而这个向量的欧式范数就是箭头的长度。

拥有(定义)范数的向量空间就是赋范向量空间,拥有(定义)办法书的向量空间就是赋半范向量空间

更加规范的定义:

假设V是域F上的向量空间;V的半范数是一个函数:p:VR;xp(x),满足:

  • p(v)0(具有半正定性)
  • p(av)=|a|p(v)(具有绝对一次齐次性)
  • p(u+v)p(u)+p(v)(满足三角不等式,或者称次可加性)

范数是一个半范数加上额外的性质:

  • p(v)=0,当且仅当v是零向量(正定性)

若拓扑向量空降的拓扑可以被范数导出,这个拓扑向量空间被称为赋范向量空间。

2.例子

  • 所有的范数都是半范数
  • 平凡半范数,即p(x)=0,xV
  • 绝对值是实数集上的一个范数
  • 对向量空间上的线性型f可以定义一个半范数:x|f(x)|

绝对值范数

绝对值范数为:

||x||=in|xi|

是在由实数或虚数构成的一维向量空间中的范数

绝对值范数是曼哈顿范数的特殊形式

Lp范数

Lp范数是向量空间中的一组范数。Lp范数与幂平均有一定的联系,定义如下:

Lp(x)=||x||p=(i=1b|xi|p)1p  , x={x1,x2,x3,...,xn},p1

图中的q应为p。这是p取不同值是,在R2空间上的Lp范数等高线的其中一条。该图展示了各Lp范数的形状。

  • p=0:||x||0=xi0。注意,这里的L0范数并非通常意义上的范数(不满足三角不等式或次可加性)

  • p=1:||x||1=i=1n|xi|,即L1范数是向量各分量绝对值之和,又称曼哈顿距离、最小绝对误差等。使用L1范数可以度量两个向量之间的差异,汝绝对误差和(Sum of Absolute Difference)

    由于L1范数的天然性质,对L1优化的解是一个稀疏解(查不到准确的定义,不过大概意思就是说这个解向量中很多项都是零),L1范数也就被称作稀疏规则算子

  • p=2:||x||2=i=1n|xi|2,此为欧氏距离

  • p=+:||x||=limp(i=1n|xi|p)1p=maxi |xi|,通常表示元素的最大值,即无穷范数或最大范数

欧几里得范数

在n维欧几里得空间Rn上,向量x=(x1,x2,x3,...,xn)T的最符合直觉的长度由以下公式给出:

||x||2=x12+...+xn2

根据勾股定理,它给出了从原点到点x之间的(通常意义下)的距离。欧几里得范数是Rn上最常用的范数,但正如下面所举出的,Rn上也可以定义其它的范数。然而,以下定义的范数都定义了同一个拓扑结构,因此它们在某种意义上都是等价的。

在一个n维复数空间Cn中,最常见的范数是:

||z||=|z1|2+...+|zn|2=z1z¯1+...+znz¯n

以上两者又可以以向量与自身的内积的平凡根表示:

||x||=xx

其中x是一个列向量([x1,x2,...,xn]T),而x表示其共轭转置

以上公式适用于任何内积空间,包括欧式空间和复空间。在欧几里得空间里,内积等价于电机,因此公式可以写为:

||x||=x·x

特别的,Rn+1中所有的欧几里得范数为同一个给定正实数的向量的集合是一个n维球面。

矩阵范数

矩阵可以看做向量空间上的一次向量的线性变换,矩阵范数就是用来衡量变化幅度大小的

诱导范数

由向量范数的Lp范数诱导而来:

列和范数

||A||1=maxji=1m|aij|

即所有矩阵的列向量绝对值之和的最大值

谱范数

||A2||2=λ1,λ1ATA

ATA矩阵的最大特征值的开平方

行和范数

||A||=maxij=1m||aij||

即所有矩阵行向量绝对值之和的最大值

非诱导范数

Frobenius范数

F||A||F=i=1m(j=1n|aij|2)12

即矩阵元素绝对值的平方和再开平方

核范数

||A||=i=1nλi,λiA

指矩阵奇异值的和

参考:

  1. 范数-维基百科
  2. Lp范数-维基百科
  3. 【数学知识】||x||(范数 norm)

一些更深入的相关知识:

  1. L1正则化引起稀疏解的多种解释
  2. L1正则化的稀疏性解释
  3. 为什么L1稀疏,L2平滑?

  1. 看一个例子minxi maxyi |εi|,εi=xiyi.这个例子里面 |εi|是考察对象,而 xi 和 yi 是两个变量。xi 可以取很多值, yi也可以取很多值。两个下标的意思是:遍历所有的xi和yi取值。先看里面那一层,即 max|εi|.它的意思是,xi取一个固定的值(比如x1),yi遍历所有取值,使得|εi|最大值,这样就找到了(x1, ym1, |εi|1) 这样一个样本。然后,改变xi的值(比如x2),再遍历yi取值,又可以找到|εi|最大值,即 (x2, ym2, |εi|2)的情况。……以此类推,可以理解 min{ },就是在 xi 取所有情况时,从找到的 |εi|1, |εi|2 .... 中找最小值。 ↩︎

posted @   01am  阅读(7078)  评论(1编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~
点击右上角即可分享
微信分享提示
主题色彩