机器学习数学

线性代数

向量：定义了向量间的加法和标量乘法，且运算结果仍然属于向量
矩阵：表示一种线性映射，或者表示向量的集合
仿射：Ax+b (对一个向量进行线性映射之后加上另一个向量)，1维的仿射是直线，二维的仿射是平面，n-1维的仿射是超平面
双线性映射：有两个参数，且对于每个参数，都是线性映射
矩阵的特征值和特征向量：可以理解为分别表示矩阵线性变换伸缩的方向和大小
矩阵行列式的值可以理解为在N维空间内，矩阵内列向量组成形状的”体积“（有符号数）
行列式的值是所有特征值的乘积
矩阵的迹是主对角线上元素的和，等于所有特征值的和
特征值分解只定义在方阵上，且需要有一组由特征向量组成的基；所有矩阵都存在SVD
特征值分解和SVD均由下面三个线性变换组成，对于SVD而言定义域和陪域可能有不同的维度
- 在定义域对基做变换
- 对基进行缩放，将定义域映射到陪域
- 在陪域对基做变换

向量微积分

链式法则
自动差分：通过中间变量构建函数的计算图，利用链式法则反向计算函数的梯度，自动差分是几乎所有深度学习框架的基础

概率与分布

对概率有两种理解：概率派（认为参数是固定的，所有参数源于数据本身）和贝叶斯派（参数服从分布，参数源于数据和先验）
样本空间：实验的所有可能结果集合
概率分布
- 概率质量函数（pmf）：给定离散随机变量的取值，得到其对应的概率值
- 概率密度函数（pdf）：随机变量在某一位置的概率密度
- 累积分布函数（cdf）：随机变量小于某个值的概率
贝叶斯公式：
期望与方差
- 期望：关于X的函数与pdf的乘积的积分，当函数为x本身时此时的期望为均值，即E(x)
- 协方差：Cov(x, y) = E[(x - E(x))(y - E(y))] = E(xy) - E(x)E(y)
- 方差（与自身的协方差）：V(x) = Cov(x, x)
- 标准差：方差的平方根
- 相关系数：
两个变量独立则p(x,y) = p(x)p(y), 两个变量独立则协方差为0，但协方差为0不一定独立，因为协方差为0只表示两个变量没有线性关系

连续最优化

训练一个机器学习模型常常归结为找到一组好的参数，这个过程就是通过最优化目标函数完成的
梯度下降：通常目标函数越小越好，参数空间最优解即目标函数取到最小值的时候，在实际应用中，很难通过找到梯度为0的解析解直接找到极小值，但由于梯度能够指引我们上升最快的方向（也是与等高线正交的方向），所以可以像负梯度的方向移动一步一步地找到极小值
凸函数，函数上任意两点之间的函数值都在两点间连线的下方，所有极小值都是最小值
带冲量的梯度下降：通过计算梯度的移动加权平均来记忆之前迭代的信息，能够减小震荡，加速收敛
随机梯度下降：通过计算一个样本的梯度来近似全局梯度，能够大大加快计算和迭代速度，节约内存/显存空间，但是会加剧震荡，也可能近似梯度的噪声有助于跳出局部极小值
mini-batch梯度下降：计算一小批次样本的梯度来近似全局梯度，是GD和SGD的折中，能够享受到向量化批次计算的性能提升
三种GD计算得到的梯度都是真实梯度的无偏估计，所以都能够收敛（但方差不一致，所以单次迭代的效果不一致）
线性规划
二次规划

机器学习

机器学习的目标是找到一个模型以及相对应的参数使得predictor在未知的数据上能够表现好，通常有三个阶段
- 训练 / 参数估计
- 超参数调试 / 模型选择
- 预估 / 推理（通常当模型是函数时，可称作预估，当模型是概率模型时，可称作推理）
经验风险：样本的平均loss；机器学习的通常策略就是经验风险最小化
当训练集的经验风险已经很小，但是测试集的预估风险比训练集的经验风险高得多时，说明模型对于未知样本不能很好地处理，也就是泛化能力不强，此时需要正则化，通过惩罚项来降低模型复杂程度，使模型不那么”精确“，增强泛化能力，使结构风险最小化
最大似然估计(MLE):最大化似然即最小化负对数似然，随着样本数增大，收敛于真实值，当样本数小时，方差大，所以容易过拟合
最大后验概率(MAP):利用参数的先验知识，最大化后验，因为证据（evidence）与参数无关，故等价于argmax(似然*先验)，由于利用了先验信息，所以可以缓解过拟合的情况

线性回归

输出值是特征的线性组合，参数决定如何线性组合
假定noise和参数的先验服从高斯分布，可通过上述MLE和MAP推导，MAP推导的结果与正则项一致

EE问题

汤普森采样：贝塔分布的 a 参数看成是推荐后用户点击的次数，把分布的 b 参数看成是推荐后用户未点击的次数，则汤普森采样过程如下：
- 取出每一个候选对应的参数 a 和 b；
  　- 为每个候选用 a 和 b 作为参数，用贝塔分布产生一个随机数；
  　- 按照随机数排序，输出最大值对应的候选；
  　- 观察用户反馈，如果用户点击则将对应候选的 a 加 1，否则 b 加 1；
- 实际上在推荐系统中，可能要为每一个用户都保存一套参数，比如候选有 m 个，用户有 n 个，那么就要保存 2 m n个参数。

posted @ 2020-09-23 20:28 排骨zzz 阅读(176) 评论(0) 编辑收藏举报

刷新页面返回顶部