05 2022 档案
摘要:资料来源 https://www.bilibili.com/video/BV11g4y1i7MW 80年代的n元语法 隐马尔科夫模型 SVM MRF CRF 等等 提纲 1.n元文法 2.神经语言模型 3.问题思考 历史 后面词的出现受前面词的影响,改进为条件概率,数据量太大 改进,当前词只和前面n
阅读全文
摘要:1.推荐材料 1.PRML 第十章节 变分推断 2.B站 白板推导 这部分讲解的很详细 https://www.bilibili.com/video/BV1aE411o7qd?p=70 https://www.bilibili.com/video/BV1aE411o7qd?p=71 https://
阅读全文
摘要:1.批归一化的作用 参看权值初始化那篇的内容,批归一化的主要意图和权值初始化是一样的,是要解决梯度的前向传播和反向传播过程中,梯度弥散,梯度消失的问题 2.批归一化的流程 这里注意一点,BN层一般放在激活层前面 3.算法流程 算法比较简单,解决问题的主要宗旨和权重初始化一样,尽量能勾勒出一个0均值,
阅读全文
摘要:原地址 https://www.bilibili.com/video/BV1ba411m72B 1.为什么需要对权重初始化精心设计 1.容易出现梯度消失(梯度特别的接近0)和梯度爆炸(梯度特别的大)的情况,导致大部分反向传播得到的梯度不起作用或者起反作用 2.设计思路 神经网络的每层的数据的传送是要
阅读全文
摘要:材料准备 网络找了很多关于卷积神经网络的资料,综合来看,挑了一些比较有质量的材料汇总如下 1.鲁鹏老师的计算机视觉与深度学习 https://www.bilibili.com/video/BV1V54y1B7K3 2.邱锡鹏老师的蒲公英书 3.PRML关于卷积神经网络,不变性的章节(提供了一些不变性
阅读全文
摘要:1.sigmoid函数 2.softmax函数 及其导数 3.tanh函数及其导数 3.MSE均方差损失函数及其导数 4.交叉熵损失函数及其导数
阅读全文
摘要:#1.GBDT算法流程 初始化弱学习器 一般用所有训练样本的标签值的均值 \(f_0(x)=argmin_c\sum\limits_{i=1}^{N}L(y_i
阅读全文
摘要:概述 Adaboost的思想是将关注点放在被错误分类的样本上,减小上一轮被正确分类的样本权值 Adaboost采用加权投票的方法,分类误差小的弱分类器的权重大,而分类误差大的弱分类器的权重小 算法流程 1. \(T=\{(x_1,y_1),(x_2,y_2),...,(x_
阅读全文
摘要:Hesse矩阵和Jacobi矩阵 注意Hesse矩阵计算过程中目标变量是一元实值,自变量是向量,经过一阶导后变成目标变量为函数矩阵,自变量为向量函数,然后函数矩阵对向量求导,见书上定义 1.3.2 $$\nabla2f(x)=\begin{pmatrix} \frac{\partial2f(x)}{
阅读全文
摘要:1.概念 cdf-累计分布函数 pdf-概率密度函数 Gamma函数 2.常见分布-离散型 0-1分布/伯努利分布 随机变量X只可能有0,1两个值,S={0,1},它的分布律是 \(或者\
阅读全文
摘要:1.函数矩阵 定义 $A(t)=\begin{pmatrix} a_{11}(t) & a_{12}(t) & ... \ ...\ a_{n1}(t) & a_{n2}(t) & ... & a_{nn
阅读全文