机器学习 - 随笔分类 - 狂徒归来

MCMC 浅谈

摘要：MCMC 浅谈 1. 采样（sampling）是什么 MCMC在采样算法中有着举足轻重的地位，那么什么是采样？采样就是根据某种分布生成样本。举个例子，线性同余发生器就是根据均匀分布生成样本，这就很简单的采样了。 2. 蒙特卡罗算法假设现在我们有个如下所示的定积分需要进行计算， $$ \thet 阅读全文

posted @ 2018-12-14 12:27 狂徒归来阅读(1297) 评论(0) 推荐(0)

Adaboost和GBDT的区别以及xgboost和GBDT的区别

摘要：Adaboost和GBDT的区别以及xgboost和GBDT的区别以下内容转自 https://blog.csdn.net/chengfulukou/article/details/76906710 ，本文主要用作记录收藏 AdaBoost VS GBDT 和AdaBoost一样，Gradient 阅读全文

posted @ 2018-12-04 20:49 狂徒归来阅读(1276) 评论(0) 推荐(0)

布隆过滤器

摘要：布隆过滤器布隆过滤器在海量数据的处理应用较为广泛，比如，怎么判断一亿个url里面是不是有重复的。布隆过滤器结合了bitmap和hash的思想，bitmap的做法是使用一个bit来表示某个对象是否有出现，但是其所需要的空间跟所处理对象的最大值有关。布隆过滤器采用$k$个hash函数将对象hash成阅读全文

posted @ 2018-12-03 15:46 狂徒归来阅读(196) 评论(0) 推荐(0)

混淆矩阵、准确率、召回率、ROC曲线、AUC

摘要：混淆矩阵、准确率、召回率、ROC曲线、AUC 假设有一个用来对猫（cats）、狗（dogs）、兔子（rabbits）进行分类的系统，混淆矩阵就是为了进一步分析性能而对该算法测试结果做出的总结。假设总共有 27 只动物：8只猫， 6条狗，13只兔子。结果的混淆矩阵如上图所示，我们可以发现，只有主对角线阅读全文

posted @ 2018-11-30 15:29 狂徒归来阅读(5781) 评论(0) 推荐(0)

backpropagation算法示例

摘要：backpropagation算法示例下面举个例子，假设在某个mini batch的有样本X和标签Y，其中$X\in R^{m\times 2}, Y\in R^{m\times 1}$，现在有个两层的网络，对应的计算如下： $$ \begin{split} i_1 &= XW_1+ b_1\\ 阅读全文

posted @ 2018-11-27 21:01 狂徒归来阅读(511) 评论(0) 推荐(0)

spaCy 并行分词

摘要：spaCy 并行分词在使用spacy的时候，感觉比nltk慢了许多，一直在寻找并行化的方案，好在找到了，下面给出spaCy并行化的分词方法使用示例：阅读全文

posted @ 2018-11-23 16:11 狂徒归来阅读(1836) 评论(0) 推荐(0)

点到平面的距离计算

摘要：点到平面的距离计算如上图所示，假设现在有一平面$S$ $$ WX+b = 0 $$ 其中$W,X$都是向量，现有平面外一点$Q$，求$Q$到平面的距离。我们假设平面内有一点$P$，并且平面的法向量为$\overrightarrow{n}=(W_1, W_2, \cdots, W_n)$，那么有$ 阅读全文

posted @ 2018-11-14 14:04 狂徒归来阅读(4092) 评论(0) 推荐(1)

Backpropagation Through Time (BPTT) 梯度消失与梯度爆炸

摘要：Backpropagation Through Time (BPTT) 梯度消失与梯度爆炸下面的图显示的是RNN的结果以及数据前向流动方向假设有 $$ \begin{split} h_t &= \tanh W\begin{pmatrix}x_t \\ h_{t 1}\end{pmatrix}\\ 阅读全文

posted @ 2018-11-14 10:57 狂徒归来阅读(886) 评论(0) 推荐(0)

深度学习中常用的优化器简介

摘要：深度学习中常用的优化器简介 SGD mini batch SGD 是最基础的优化方法，是后续改良方法的基础。下式给出SGD的更新公式 $$ \theta_t = \theta_{t 1} \alpha\nabla_\theta J(\theta) $$ 其中$\alpha$是学习速率。 SGD wi 阅读全文

posted @ 2018-11-07 12:57 狂徒归来阅读(1426) 评论(0) 推荐(0)

GloVe词分布式表示

摘要：GloVe 模型介绍下面的内容主要来自https://blog.csdn.net/u014665013/article/details/79642083 GloVe的推导 GloVe是基于共现信息来获得词的分布表示的，所以需要统计词的共现对信息。在设定的窗口内，统计中心词$k$与其上下文词$i$的阅读全文

posted @ 2018-11-07 12:07 狂徒归来阅读(599) 评论(0) 推荐(0)

GBDT 与 XGBoost

摘要：GBDT & XGBoost 回归树单棵回归树可以表示成如下的数学形式 $$ f(x) = \sum_j^Tw_j\mathbf{I}(x\in R_j) $$ 其中$T$为叶节点的个数，$\mathbf{I}$为指示函数。回归树的参数学习当给定树的结构的时候，即知道哪些点划分到哪些叶节点后，阅读全文

posted @ 2018-11-06 14:48 狂徒归来阅读(304) 评论(0) 推荐(0)

对数线性模型与线性链条件随机场

摘要：对数线性模型与线性链条件随机场对数线性模型我们从书本上知道线性链条件随机场就是对数线性模型，逻辑回归也是对数线性模型。对数线性模型的一般形式如下所示: $$ p(y|x;w)=\dfrac{\exp\sum_{j=1}^Jw_jF_j(x, y)}{Z(x, w)} $$ 其中$x,y$分别是输阅读全文

posted @ 2018-11-05 15:41 狂徒归来阅读(688) 评论(0) 推荐(0)

SVM 与 LR的异同

摘要：LR & SVM 的区别相同点 1. LR和SVM都是分类算法。 2. 如果不考虑核函数，LR和SVM都是线性分类算法，也就是说他们的分类决策面都是线性的。 3. LR和SVM都是监督学习算法。 4. LR和SVM都是判别模型。不同点 1. 损失函数不一样 2. 支持向量机只考虑局部的边界线附近阅读全文

posted @ 2018-10-26 18:06 狂徒归来阅读(438) 评论(0) 推荐(0)

EM算法简易推导

摘要：EM算法推导网上和书上有关于EM算法的推导，都比较复杂，不便于记忆，这里给出一个更加简短的推导，用于备忘。在不包含隐变量的情况下，我们求最大似然的时候只需要进行求导使导函数等于0，求出参数即可。但是包含隐变量，直接求导就变得异常复杂，此时需要EM算法，首先求出隐变量的期望值（E步），然后，把隐变阅读全文

posted @ 2018-10-26 13:12 狂徒归来阅读(410) 评论(0) 推荐(0)

K-means算法的优缺点

摘要：K means算法的优缺点优点：原理简单，实现容易缺点： 1. 收敛较慢 2. 算法时间复杂度比较高 $O(nkt)$ 3. 不能发现非凸形状的簇 4. 需要事先确定超参数K 5. 对噪声和离群点敏感 6. 结果不一定是全局最优，只能保证局部最优阅读全文

posted @ 2018-10-26 12:17 狂徒归来阅读(9916) 评论(0) 推荐(0)

自助采样包含训练集里63.2%的样本?

摘要：自助采样包含训练集里63.2%的样本? 在学习随机森林的时候，经常会看到这么一句话“ 自助采样法给bagging带来的好处就是:由于每个学习器只是使用了% 63.2 的数据,剩下的约%36.8的样本可以用作验证集来对泛化性能进行“包外估计”。 “ 那么这个63.2%是怎么来的呢？假设我们有n个样本，阅读全文

posted @ 2018-10-25 12:29 狂徒归来阅读(1570) 评论(0) 推荐(0)

指数加权移动平均

摘要：指数加权移动平均以下内容来自 https://zhuanlan.zhihu.com/p/32335746，纯用作记录指数加权移动平均(Exponentially Weighted Moving Average)，他是一种常用的序列处理方式。在$t$时刻，移动平均值公式是 $$ v_t = \be 阅读全文

posted @ 2018-10-24 17:09 狂徒归来阅读(2086) 评论(0) 推荐(0)

梯度下降与牛顿法

摘要：牛顿法与梯度下降法梯度下降法梯度下降法非常常用，其利用的是一阶导数，进行逼近，具体的更新方法如下： $$ x_{n+1} = x_n \alpha f'(x_n) $$ 其中$\alpha$为学习速率。牛顿法牛顿利用到了二阶导数的信息，其推导需要利用到泰勒的二阶展开，具体如下： $$f(x+ 阅读全文

posted @ 2018-10-24 17:08 狂徒归来阅读(379) 评论(0) 推荐(0)

kNN的维数灾难与PCA降维

摘要：主成分分析 PCA 协方差矩阵假设我们有 $$ X = \begin{pmatrix}X_1\\X_2\\\vdots\\X_m\end{pmatrix}\in\mathbb{R}^{m\times n} $$ 那么协方差矩阵 $$ C_x= \dfrac{1}{n 1}XX^T = \dfrac 阅读全文

posted @ 2018-10-24 10:39 狂徒归来阅读(1496) 评论(0) 推荐(0)

TensorFlow TFRecord封装不定长的序列数据（文本）

摘要：TensorFlow TFRecord封装不定长的序列数据（文本）在实验室环境中，通常数据都是一次性导入内存的，然后使用手工写的数据mini batch函数来切分数据，但是这样的做法在海量数据下显得不太合适：1）内存太小不足以将全部数据一次性导入；2）数据切分和模型训练之间无法异步，训练过程易受到阅读全文

posted @ 2018-05-09 13:47 狂徒归来阅读(4421) 评论(0) 推荐(0)

狂徒归来

人生如逆旅，我亦是行人

随笔分类 - 机器学习

公告