机器学习中的基本数学知识

注：本文的代码是使用Python 3写的。

机器学习中的基本数学知识

线性代数（linear algebra）

第一公式

f (x) = x w T + b (1)

这是在机器学习中，最常见的公式。我把这个称为机器学习的第一公式，实际上就是线性分类函数(linear classifier)。
训练分类器的目标就是求出 $(w, b)$

有时，我们也会见到这个公式表示为类似下面的样子，它们的基本含义都是一样的。
$f (x) = w x + b$

注：这里 $w$

矩阵的操作

由于，这篇文章是从数学的角度写的，所以我们先关注矩阵的操作。

换位(transpose)

矩阵的换位操作：将矩阵中的数按照对角线交换。
数学公式： $w^{T}$

# Matrix Transpose
m = numpy.mat([[1, 2], [3, 4]])
print("Matrix.Transpose:")
print(m.T)
''' Output:
Matrix.Transpose:
[[1 3]
 [2 4]]
'''

矩阵乘法

矩阵相乘的含义
如果一斤苹果10元，5斤苹果多少元？答案是： $10 * 5 = 50$
$[10 20] [5 2] = 10 \times 5 + 20 \times 2 = 90 (2)$
我们可以看出矩阵相乘的约束：乘数1的列数要和乘数2的行数相等。
矩阵乘法不满足交换律
$m 1 \cdot m 2 \neq m 2 \cdot m 1 (3)$
我们再看看交换乘数后，计算的结果：
$[10 20] [5 2]$
比如：数 $20$

举例说明它们的不同之处：

m 1 = [1 2] (5)

$(w, b)$

m 2 = [10 20] (6)

$(w, b)$

m 1 \cdot m 2 = [1 2] [10 20] 1 * 10 + 2 *

$m 2 \cdot m 1$

m 2 \cdot m 1 = 10 20 1 10 * 1 20 * 1 2 10 * 2 20 * 2

计算公式
矩阵相乘是：用矩阵1的每一行和矩阵2的每一列的点积，得到一个矩阵。
$l * m$

x \cdot y = [x 1 \dots x n] ⎡⎣⎢ y 1

代码演示：

# Matrix Multiplication
print("Matrix Multiplication")
a = numpy.mat([1, 2])
b = numpy.mat([[10], [20]])
print(a * b)
print(a.T * b.T)

a = numpy.mat([[1, 2], [3, 4]])
b = numpy.mat([[10, 20], [30, 40]])
print(a * b)

''' Output:
[[50]]
[[10 20]
 [20 40]]
[[ 70 100]
 [150 220]]
'''

矩阵的各种乘积

操作	数学符号	Python	Demo
点积(dot product)	$a b$	a.dot(b) numpy.dot(a, b)	$A B = (1, 2) (10 20) = 1 * 10 + 2 * 20 = 50 (10)$
内积(inner product)	$a \cdot b$	numpy.inner(a, b)	$a \cdot b = a b T (11)$
外积(outer product)	$a \otimes b$	numpy.outer(a, b)	$A \otimes B = (1 2) (10 20) = (1 * 10$
元素积(element-wise product, point-wise product, Hadamard product )	$a \circ b$	numpy.multiply(a, b)	$A ⊙ B = (1 3 2 4) (10 20) = ($

注：Python中，矩阵数据可以表示为matrix和ndarray两种类型。
这两种类型的操作非常接近，但是有细微的不同。
ndarray * operation ：element-wise product.
matrix * operation ：dot product.
numpy.multiply for ndarray ：element-wise product. same.
numpy.multiply for matrix ：element-wise product. same.
numpy.dot for ndarray : inner product. 1-d array.
numpy.dot for matrix ：dot product. shape determined by values.
numpy.inner for ndarray ：inner product. 1-d array.
numpy.inner for matrix ：inner product. shape determined by values.
numpy.outer for ndarray ：outer product. same.
numpy.outer for matrix ：outer product. same.

内积

英文: inner product, scalar product。
矢量的降维运算，变成一个数。
矩阵的内积是每行每列的内积的矩阵。

x y = ⟨ x, y ⟩ = \sum n i = 1 x i y i (14)

x = numpy.array([1, 2])
y = numpy.array([10, 20])
print("Array inner:")
print(numpy.inner(x, y))
''' Output：
Array inner:
50
'''

x = numpy.mat([[1, 2], [3, 4]])
y = numpy.mat([10, 20])
print("Matrix inner:")
print(numpy.inner(x, y))
''' Output：
Matrix inner:
[[ 50]
 [110]]
'''

外积

矢量的升维运算， $m$

x \otimes y = ⎡⎣⎢⎢⎢ x 1 x 2 \dots x m \dots \dots \dots \dots

x = numpy.array([1, 3])
y = numpy.array([10, 20])
print("Array outer:")
print(numpy.outer(x, y))
''' Output：
Array outer:
[[10 20]
 [30 60]]
'''

x = numpy.mat([[1, 2], [3, 4]])
y = numpy.mat([10, 20])
print("Matrix outer:")
print(numpy.outer(x, y))
''' Output：
Matrix outer:
[[10 20]
 [20 40]
 [30 60]
 [40 80]]
'''

注：有没有发现matrix outer 是vector outer的并集。

元素积(element-wise product/point-wise product/Hadamard product

计算公式

x \cdot y = [x 1 \dots x n] [y 1

x = numpy.array([1, 3])
y = numpy.array([10, 20])
print("Array element-wise product:")
print(x * y)
''' Output：
Array element-wise product:
[10 60]
'''

加

x = numpy.mat([[1, 2], [3, 4]])
y = numpy.mat([[10, 20],[30, 40]])
print("Matrix Add :")
print(x + y)
''' Output：
Matrix Add :
[[11 22]
 [33 44]]
'''

低等数学

求总和公式
这个大家应该都知道。
$\sum i = 1 N x i = x 1 + x 2 + \dots + x n (17)$
求总积公式
$\prod i = 1 N x i = x 1 \times x 2 \times \dots \times x n (18)$
对数
- 对数的含义：
  1. 求数的长度。
  2. 将乘法转变成加法。
  3. 解决下溢出问题：由于太多很小的数相乘造成的问题。
- 数学表达
  $l o g (x) = log 10 x$
  
  由于不同底的对数的结果是等比关系，所以，有时底数是谁，是无所谓的。
等比
$a$
$a b$
下取整(floor)和上取整(ceil)
$floor: ⌊ x ⌋$

几何

范数(norm)

L1范数
$‖ w ‖_{1}$
$∥ w ∥ 1 = \sum n i = 1 | w i | (22)$
L2范数
$‖ w ‖ or ‖ w ‖_{2}$
$∥ w ∥ = \sum n i = 1 w 2 i-------\sqrt (23)$

拉格朗日乘子法和KKT条件

如果方程式 $f (x) = w x + b$

L (w, b, α) (24)

$(w, b)$

微分（differential）

表示形式

f' (x)

含义

d f ( x ) d x = lim h \to 0 f ( x + h ) - f ( x ) h

数学含义是在 $x$

法则

法则	微分	偏微分
和法则(sum rule)	$(f + g)^{'} = f^{'} + g^{'}$	$\partial ( u + v ) \partial x = \partial u \partial x + \partial v \partial x (27)$
积法则(product rule)	$(f \cdot g)^{'} = f^{'} \cdot g + f \cdot g^{'}$	$\partial ( u \cdot v ) \partial x = u \cdot \partial v \partial x + v \cdot \partial u \partial x (28)$
链式法则(chain rule of differentiation)	$(f (g (x)))^{'} = f^{'} (g (x)) g^{'} (x)$	$\partial z \partial x = \partial z \partial y \cdot \partial y \partial x (29)$

常见导数公式

f(x)	f'(x)
$a x$	$a$
$x^{n}$	$n x^{n - 1}$
$x + c$	$1$
$e^{x}$	$e^{x}$
$l n (x)$	$\frac{1}{x}$

统计学/概率论

贝叶斯公式(Bayes formula)

p (A | B) = p ( B | A ) p ( A ) p ( B )

比如：在判断垃圾邮件的算法中:
P(A) ：所有邮件中，垃圾邮件的概率。
P(B) ：出现某个单词的概率。
P(B|A) : 垃圾邮件中，出现某个单词的概率。
P(A|B) : 出现某个单词的邮件，是垃圾邮件的概率。

信息论

香农熵（Shannon Entropy）

熵的定义
在信息论中，熵是接收的每条消息中包含的信息的平均量，又被称为信息熵、信源熵、平均自信息量。
熵定义为信息的期望值。
熵实际是对随机变量的比特量和顺次发生概率相乘再总和的数学期望。
熵的单位通常为比特, bit 或者sh(annon) (基于2)，但也用nat(基于自然对数)、Hart（基于10）计量，取决于定义用到对数的底。
熵的单位不重要。（因为是求对数，所以是等比的。不理解这句话也无所谓。）
熵值是一个>=0的值。
如果为0，则表明结果可以准确预测。从下面的公式可以看出，其概率为1.
熵的特征
- 发生概率越小的信息，熵值越大。
- 常识的熵为0。
- 从计算损失的角度来说：熵值越大，说明损失越大。
期望值
在概率论和统计学中，一个离散性随机变量的期望值（或数学期望、或均值，亦简称期望，物理学中称为期待值）是试验中每次可能结果的概率乘以其结果的总和。
比如掷骰子, 其点数的期望值是3.5：
$E (x) = 1 * 1 / 6 + 1 * 2 / 6 + 1 * 3 / 6 + 1 * 4 / 6 + 1 * 5 / 6 + 1 * 6 / 6 = 3.5$
通俗的理解
信息熵是：
- 各个（值的概率 * 值的长度）的总和。
数据集的信息熵的计算公式

H (X) = E [I (X)] = E [- l n P (X)] = \sum i

熵的作用
- 计算损失(Loss function)
  用于调整梯度递减的步长。（本次熵（损失）比上次熵（损失）大，说明步长太大了。）
- 用于决策树
  熵越大，说明特征(feature)的划分数据能力越强。

博弈论

倾向关系(preference relation)
描述了玩家的倾向， $x ⪰ y$

不知道放到哪儿

求最大化参数
数学表示
$\underset{c}{a r g m a x} P (c)$

例如：

c \in {1, 2}

返回最大值
数学表示
$\underset{a \in A}{m a x} P (a)$
约束条件(Subject to)
数学表示
$y = 2 x + 1, s.t. x > 0$
定义上相等
数学表示
$A ≐ B$
2补数(2's complement)
一种使用2进制表示有符号数的方法。
第一位为符号位，
如果是0，则记做0;
如果为1，则记做 $- 2^{n - 1}, n is the size of the number$

机器学习

激活函数

请看我的另外一个博文：
神经网络学习笔记 - 激活函数的作用、定义和微分证明

损失函数

请看我的另外一个博文：
神经网络学习笔记 - 损失函数的定义和微分证明

附录

希腊字母的含义和发音

	大写	小写	English	发音	中文	含义
1	Α	α	alpha	a:lf	阿尔法
2	Β	β	beta	bet	贝塔
3	Γ	γ	gamma	ga:m	伽马
4	Δ	δ	delta	delt	德尔塔	δ: delta value，偏差值
5	Ε	ε	epsilon	ep'silon	伊普西龙
6	Ζ	ζ	zeta	zat	截塔
7	Η	η	eta	eit	艾塔
8	Θ	θ	thet	θit	西塔
9	Ι	ι	iot	aiot	约塔
10	Κ	κ	kappa	kap	卡帕
11	∧	λ	lambda	lambd	兰布达
12	Μ	μ	mu	mju	缪
13	Ν	ν	nu	nju	纽
14	Ξ	ξ	xi	ksi	克西	ξ: slack variable，松弛变量
15	Ο	ο	omicron	omik'ron	奥密克戎
16	∏	π	pi	pai	派	π: 圆周率
17	Ρ	ρ	rho	rou	肉
18	∑	σ	sigma	'sigma	西格马
19	Τ	τ	tau	tau	套
20	Υ	υ	upsilon	jup'silon	宇普西龙
21	Φ	φ	phi	fai	佛爱
22	Χ	χ	chi	phai	凯
23	Ψ	ψ	psi	psai	普西
24	Ω	ω	omega	o'miga	欧米伽

松弛变量(slack variable):在SVM中，为了处理异常点（跑到另一个分类中的点），设定的容忍值。

数学符号的含义和发音

	大写	小写	English	发音	中文	含义
1	$\partial$		partial	-	偏分	偏分
1	$\infty$		infinity	-	无穷	无穷

参照

如有希望介绍的数学概念，请写到评论中，我有空会加上。

posted @ 2019-06-19 18:06 技术研究与问题解决阅读(549) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】

公告

昵称：技术研究与问题解决
园龄： 6年2个月
粉丝： 36
关注： 18

+加关注

2025年3月

日

一

二

三

四

五

六

机器学习中的基本数学知识

机器学习中的基本数学知识

线性代数（linear algebra）

第一公式

矩阵的操作

换位(transpose)

矩阵乘法

矩阵的各种乘积

内积

外积

元素积(element-wise product/point-wise product/Hadamard product

加

低等数学

几何

范数(norm)

拉格朗日乘子法和KKT条件

微分（differential）

表示形式

法则

常见导数公式

统计学/概率论

信息论

香农熵（Shannon Entropy）

博弈论

不知道放到哪儿

机器学习

激活函数

损失函数

附录

希腊字母的含义和发音

数学符号的含义和发音

参照

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论