11 2020 档案
摘要:加权移动平均法:是对观察值分别给予不同的权数,按不同权数求得移动平均值,并以最后的移动平均值为基础,确定预测值的方法。 采用加权移动平均法,是因为观察期的近期观察值对预测值有较大影响,它更能反映近期变化的趋势。 指数移动加权平均法:是指各数值的加权系数随时间呈指数式递减,越靠近当前时刻的数值加权系数
阅读全文
摘要:批梯度下降: 1)采用所有数据来梯度下降,在样本量很大的时,学习速度较慢,因为处理完全部数据,我们仅执行了一次参数的更新。 2)在学习过程中,我们会陷入损失函数的局部最小值,而永远无法达到神经网络获得最佳结果的全局最优值。这是因为我们计算的梯度大致相同。 所以,我们实际上需要的是一些嘈杂的渐变。方向
阅读全文
摘要:1. torch.nn.MSELoss 均方损失函数,一般损失函数都是计算一个 batch 数据总的损失,而不是计算单个样本的损失。 $$L = (x - y)^{2}$$ 这里 $L, x, y$ 的维度是一样的,可以是向量或者矩阵(有多个样本组合),这里的平方是针对 Tensor 的每个元素,即
阅读全文
摘要:在 pytorch 中提供了 torch.optim 方法优化我们的神经网络,torch.optim 是实现各种优化算法的包。 1. torch.optim.SGD 这个优化器实现的是实现随机梯度下降算法。 SGD 是最基础的优化方法,普通的梯度下降法, 需要重复不断的把整套数据放入神经网络 NN
阅读全文
摘要:1. Sigmod 函数 Sigmoid 函数是应用最广泛的非线性激活函数之一,它可以将值转换为 $0$ 和 $1$ 之间,如果原来的输出具有这样的特点:值越大,归为某类的可能性越大, 那么经过 Sigmod 函数处理的输出就可以代表属于某一类别的概率。其数学表达式为: $$y = \frac{1}
阅读全文
摘要:1. torch.nn.Linear PyTorch 中的 nn.linear() 是用于设置网络中的全连接层的,需要注意的是全连接层的输入与输出都是二维张量,一般形状为 [batch_size, size]。 """ in_features: 指的是输入矩阵的列数,即输入二维张量形状 [batch
阅读全文
摘要:向量 $y$ 对矩阵 $X_{m \times n}$ 求导有两种情况: 形状规则:向量 $y$ 对矩阵 $X$ 求导,分为两步: 1)向量 $y$ 的每个元素是标量,先做 $y$ 的每个元素对矩阵 $X$ 求导,这里按照标量对矩阵的求导规则进行。 2)第一步完成后,将求导结果按 $y$ 的形状排列
阅读全文
摘要:设矩阵 $X$ 为 $$X = \begin{bmatrix}x_{11} & x_{12} & \cdots & x_{1n} \\ x_{21} & x_{22} & \cdots & x_{2n} \\ \vdots & \vdots & \cdots & \vdots \\ x_{m1} &
阅读全文
摘要:张量求导规则 $\frac{\partial y}{\partial x}$ 1. 规则 $1$:形状规则 a. 只要 $y$ 或 $x$ 中有一个是标量,那么导数 $\frac{\partial y}{\partial x}$ 的形状和非标量的形状一致。 b. 如果 $y$ 和 $x$ 都是非标量
阅读全文
摘要:https://pytorch.org/docs/stable/index.html
阅读全文
摘要:深度学习中的张量 Pytorch 中的张量 Tensor 就是一个多维矩阵,它是 torch.Tensor 类型的对象,比如二阶张量,在数学中就是一个方阵,在 Pytorch 中可以是任意形 状的矩阵。在 PyTorch 中,张量 Tensor 是最基础的运算单位,与 NumPy 中的 NDArra
阅读全文
摘要:Jupyter Notebook 也是一个 python 开发的 IDE,pycharm 也可以做 python 开发,但两款 IDE 有一些区别。 Jupyter Notebook 是一种模块化的 Python 编辑器,即在 Jupyter 中,你可以把大段的 Python 代码碎片化处理,分开每
阅读全文
摘要:图形处理器($Graphics \; Processing \; Unit$,即 $GPU$),又称显卡、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备上图 像运算工作的微处理器。它是一个硬件,是外部的设备,自然需要一套软件来让 $CPU$ 操作 $GPU$。这个软件程序就
阅读全文
摘要:什么样的问题需要 $CRF$ 模型。这里举一个简单的例子: 假设我们有 $Bob$ 一天从早到晚的一系列照片,我们要猜这一系列的每张照片对应的活动,比如: 工作的照片,吃饭的照片,唱歌的照片等等。 一个比较直观的办法就是,我们找到 $Bob$ 之前的日常生活的一系列照片,然后问清楚这些照片代表的活动
阅读全文
摘要:对于 $n$ 个正数 $a_{1},a_{2},...,a_{n}$,它们的算数平均不小于它们的几何平均,即 $$\frac{a_{1} + a_{2} + \cdots + a_{n}}{n} \geq \sqrt[n]{a_{1}a_{2}\cdots a_{n}}$$ 当且仅当 $a_{1}
阅读全文
摘要:隐马尔科夫模型(Hidden Markov Model,简称HMM)是比较经典的机器学习模型,它在语言识别,自然语言处理,模式识别等领域得到广泛的应用。 随着目前深度学习的崛起,尤其是 RNN, LSTM 等神经网络序列模型的火热,HMM 的地位有所下降。但是作为一个经典的模型,学习 HMM 的模型
阅读全文
摘要:若 $f(x)$ 是区间 $[a,b]$ 上的凹函数,则对任意的 $x_{1},x_{2},...,x_{n} \in [a,b]$,且 $\sum_{i = 1}^{n}\lambda_{i} = 1, \lambda_{i} > 0$,有不等式 $$\sum_{i = 1}^{n}\lambda
阅读全文
摘要:不等式 $1$: $$a^{2} + b^{2} \geq 2ab$$ 从代数角度来证明: $$(a - b)^{2} \geq 0 \\\Rightarrow a^{2} -2ab + b^{2} \geq 0 \\\Rightarrow a^{2} + b^{2} \geq 2ab$$ 从几何角
阅读全文
摘要:$GBDT$ 也是集成学习 $Boosting$ 家族的成员,但是却和传统的 $Adaboost$ 有很大的不同。回顾下 $Adaboost$,我们是利用前一轮迭代弱学习器的误差率 来更新训练集的权重,这样一轮轮的迭代下去。$GBDT$ 也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用 $C
阅读全文
摘要:假设有两枚硬币 $A,B$,以相同的概率随机选择一个硬币,进行如下的掷硬币实验:共做 $5$ 次实验,每次实验独立的掷 $5$ 次。 下面左图是在知道每次选择的是硬币 $A$ 还是硬币 $B$ 的情况下的试验结果;右图是在不知道选择的是硬币 $A$ 还是硬币 $B$ 的情况下的试验结果。 问:在这两
阅读全文
摘要:1. 项集数据和序列数据 首先我们看看项集数据和序列数据有什么不同,如下图所示: 左边的数据集是项集数据,在 Apriori 和 FP Tree 算法中已经看到过,每个项集数据由若干项组成,这些项没有时间上的先后关系。 而右边的序列数据则不一样,它是由若干数据项集组成的序列。比如第一个序列 <a(a
阅读全文
摘要:先来看一个直角三角形,如下左图: $\sin A$ 的值与三角形的边长有什么联系呢? 从右图可以看出,角 $\alpha$ 的正弦对应单位圆上点的纵坐标,如果不理解可以先去阅读博客。 现在要求角 $A$ 的正弦,应该以点 $A$ 为圆心做单位圆,以边 $AC$ 为 $x$ 轴,那么有 $$\sin
阅读全文
摘要:Overleaf 是一个使用 LaTeX 进行多人协同编辑的平台,可以免费注册和使用,不用下载 LaTeX 软件,是最为著名的 LaTeX 在线协作系统。 科研工作者可以在各大期刊的网站上下载到其 Overleaf 模板,进行论文写作。 国内邮箱是无法注册的,一直会提示无法验证是否是机器人。可以选择
阅读全文
摘要:集成学习简介 集成学习(ensemble learning)是现在非常火爆的机器学习方法。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器(例如 同种算法但是参数不同,或者不同算法)来完成学习任务,也就是“博采众长”。一般会获得比任意单个学习器都要好的性能,尤其是在这些学习器 都是
阅读全文
摘要:$2013$ 年,$Google$ 团队发表了 $word2vec$ 工具。$Word2vec$ 工具主要包含两个模型:跳字模型($skip-gram$)和连续词袋模型 ($continuous \; bag \; of \; words$,简称 $CBOW$),以及两种高效训练的方法:负采样($n
阅读全文
摘要:$Softmax$ 函数,又称归一化指数函数。作用是将多分类的结果以概率的形式展现出来,函数定义如下: $$Softmax(z_{i}) = \frac{e^{z_{i}}}{\sum_{c = 1}^{C}e^{z_{c}}}$$ 其中 $z_{i}$ 为第 $i$ 个节点的输出值,$C$ 为输出
阅读全文
浙公网安备 33010602011771号