深度学习基础
数学基础
线性代数部分
标量,有大小无方向....略
向量,有大小有方向...略
张量
标量是0阶张量,矢量是一阶张量,矩阵是二阶张量。三维以及以上数组称为张量
线性相关组
如果存在不全为0的数α1,α2,...,αt,使得:
α1a1+α2a2+...+αtat=0,其中0为m维全零向量,那么向量组a1,a2,...,at称为线性相关组。
矩阵运算
加,乘,转置...略
矩阵的秩(Rank)
矩阵列向量中的极大线性无关组的数目。行秩=列秩=矩阵的秩。记为rank(A)
矩阵的逆
若矩阵A为方阵,当rank(Anxn)<n时,称A为奇异矩阵或不可逆矩阵。
若矩阵A为方阵,当rank(Anxn)=n时,称A为非奇异矩阵或可逆矩阵。
且AA-1=A-1A=In
特征值
存在非零向量x和常数λ满足Ax=λx,则称λ为矩阵A的一个特征值,x为矩阵A关于λ的特征向量。
矩阵的迹(trace)和行列式(determinant)的值
,
矩阵的广义逆矩阵
如果矩阵不存在逆矩阵,但是可以计算其广义逆矩阵或者伪逆矩阵。
对于矩阵A,存在矩阵B使得ABA=A,B称为A的广义逆矩阵。
奇异值分解求解广义逆矩阵:
Σ为A的特征值构成的对角矩阵,U为矩阵A的特征向量组成的矩阵。
MATALB相关库:inv()和pinv()函数
PyTorch:inverse()和pinverse()函数
特征分解
Σ为A的特征值构成的对角矩阵,U为矩阵A的标准化特征向量组成的矩阵,A的特征分解为:
标准化特征向量满足特性:
奇异值分解
Σ为ATA的特征值构成的对角矩阵,V为ATA的特征向量组成的矩阵。,U为矩阵AAT的特征向量组成的矩阵。
概率论部分
常见概率分布
伯努利分布
二值类型,只有两种结果
二项分布
重复n次伯努利实验,实验之间相互独立。
均匀分布
给定长度间隔[a,b]内的分布概率是等可能的。
概率密度函数为(概率在区间上的密度):
累积概率分布函数(区间上累积的概率):
高斯分布(正态分布)
概率密度函数
μ为均值,σ为标准差。
累积概率分布函数:
指数分布
概率密度函数:
累积概率分布函数:
推导:
指数分布特点:无记忆性。
常见概率
条件概率:P(X|Y)
联合概率:P(X,Y)
条件概率和联合概率关系:
条件概率链式法则:
先验概率:根据以往经验和分析得到的概率。
后验概率:得到“结果”的信息后重新修正的概率,执果寻因
全概率公式:
贝叶斯公式(将先验概率和后验概率联系起来)
信息论
熵
X是样本集合值越少,样本纯度越高,不确定性越少。
联合熵
度量二维随机变量XY的不确定性
条件熵
随机变量X发生的前提下,随机变量Y发生带来的熵
熵,联合熵,条件熵之间的关系
互信息
信息增益
相对熵(KL散度)
描述两个概率分布P和Q差异的一种方法。D(P||Q)表示用概率分布Q来拟合真实分布P时,产生的信息表达的损耗。P表示信息的真实分布,Q表示P的近似分布。
离散形式
连续形式
随机变量X~P,取值为1,2,3时概率为[1,0,0],估计的变量Y~Q,取值1,2,3时概率为[0.7,0.2,0.1]。
交叉熵
相对熵与交叉熵的关系
常量统计
期望
反映随机变量平均值的大小
离散形式:
连续形式:
方差
衡量与期望的偏差程度
μ为均值,N为总样本数
协方差
衡量两个随机变量X和Y直接的总体误差
最优化估计方法
最小二乘法(最小平方法)
函数:
它通过最小化误差的平方和寻找数据的最佳函数匹配
损失函数/代价函数/目标函数(预测值与真实值之间差距):
病态矩阵
对数据进行较小的扰动,得出的结果具有很大的波动
梯度下降法
对目标函数求梯度,不断用梯度更新参数。
机器学习的基础
机器学习定义
让计算机具有像人一样的学习和思考能力的技术的总称。是从已知数据中获得规律,并利用规律对未知数据进行预测的技术。
机器学习分类
有监督学习(Supervised Learning):根据标准学习,根据标准评价。线性回归,逻辑回归。
无监督学习( Unsupervised Learning):自己学习,根据标准评价。如聚类,降维。
强化学习(Reinforcement Learning):自己学习,自己评价。
若预测的值是离散的,如年龄,此类学习任务称为“分类”
若预测的值是连续的,如房价,此类学习任务称为“回归”
数据集
观测样本的集合
数据集类别
训练集(Training set):用于模型拟合的数据样本。
–验证集(Validation set):是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。
测试集(Test set): 用来评估模最终模型的泛化能力。
常见数据集地址
MNIST(手写数字)数据集合 :http://yann.lecun.com/exdb/mnist/
CIFAR-10, CIFAR-100, ImageNet
– https://www.cs.toronto.edu/~kriz/cifar.html
– http://www.image-net.org/
电影评论情感分类数据集:http://ai.stanford.edu/~amaas/data/sentiment/
图像生成诗歌数据集:https://github.com/researchmm/img2poem
误差分析
训练误差:模型在训练集上的误差
泛化误差:模型在总体样本上的误差
测试误差:模型在测试集上的误差
拟合
过拟合:是指模型能很好地拟合训练样本,而无法很好地拟合测试样本的现象。
防止过拟合:减少参数、降低模型复杂度、正则化等。
欠拟合:是指模型还没有很好地训练出数据的一般规律,模型拟合程度不高的现象
防止欠拟合:调整参数、增加迭代深度、换用更加复杂的模型等
误差分析
泛化误差分析
Y是潜在模型,是估计模型。
泛化误差可分解为:偏差+方差。
偏差反映了模型在样本上的期望输出与真实标记之间的差距(拟合能力)
方差反映了模型在不同训练数据集下学到的函数的输出与期望输出之间的误差(稳定性)
欠拟合:高偏差低方差。(偏差过高,拟合能力差)
过拟合:低偏差高方差。(方差过高,稳定性差)
交叉验证
基本思路:将训练集划分为K份,每次采用K-1作为训练集,在剩余的1份上验证。
代表性机器学习方法
线性回归
样本属性和样本标签中找到一个线性关系
线性模型一般形式:
学习对象是权重向量w和偏置项b。
逻辑回归
利用sigmoid函数,将线性回归产生的预测值压缩到0和1之间。
支持向量机
基于线性判别函数,最大化位于两类训练样本中心的超平面。
核函数
对于线性不可分的样本,可以将样本映射到高维空间。(低维不可分,高维可分)。
决策超平面
随机森林
集成学习:组合多个弱监督模型,以便于获得更好更全面的强监督模型。(一个弱分类器的错误,希望其他弱分类器能够纠正,采用多数原则)
聚类
将数据分成多个类别,在同一个类内,对象(实体)之间具有较高的相似性,在不同类内,对象之间具有较大差异
常见方法:K-Means聚类,均值漂移聚类,基于密度的聚类
降维
将原始样本数据的维度降低,尽量使得样本蕴含信息损失最小。
常见方法:主成分分析法PCA,MDA
神经元模型
参考模式识别与机器学习神经网络章节。
感知器和多层感知器
感知器
与M-P模型不同,感知器可以通过训练自动确定参数。属于有监督学习。
调整基本思路
实际输出y与期望输出r相等时,w和θ不变
实际输出y与期望输出r不相等时,调整w和θ。
α是学习率,r和y分别是期望输出和实际输出。
多层感知器
单层感知器只能解决线性可分问题,需要用多层感知器解决线性不可分问题。
多层感知器指的是由多层结构的感知器递阶组成的输入值向前传播的网络,也被称为前馈网络或正向传播网络。
三层感知器结构
输入层,中间层,输出层。
BP算法
基本过程
前向传播计算:由输入层经过隐含层向输出层的计算网络输出。
误差反向逐层传递:网络的期望输出与实际输出不符合,将误差信号有输出层经过隐含层向输入层传递。
由“前向传播计算”和“误差反向逐层传递”反复训练网络
BP算法中激活函数
Sigmoid函数
修正线性单元(ReLU,Rectified Linear Unit)
tanh函数
BP算法实例
首先调整中间层与输出层连接权重
,u21是中间层的计算结果。
得到中间层和输出层连接权重调整值:
调整输入层和中间层连接权重
其中,u21是中间层的计算结果,w1ij是输入层到中间层连接权重。两者可以通过中间层输入zj关联到一起。
可以拆分为中间层计算结果对中间层输入求导和中间层输入对第一层连接权重求导。
对中间层计算结果中间输入求导得到:
中间层的输入zj对第一层连接权重w1ij求导得到:
zj也是sigmoid函数,对函数求导得:
输入层和中间层之间的激活值u1j对中间层和输出层之间的连接权重w1ij求导:
最终:
-(r-y):误差函数的导数。
y(1-y):激活函数的导数。
w2j1:连接权重的导数。
zj(1-zj):激活函数的导数。
xi:输入值。
得到输入层与中间层之间连接权重调整值:
本文来自博客园,作者:Laplace蒜子,转载请注明原文链接:https://www.cnblogs.com/RedNoseBo/p/17151936.html