随笔分类 -  机器学习

摘要:MCMC 浅谈 1. 采样(sampling)是什么 MCMC在采样算法中有着举足轻重的地位,那么什么是采样? 采样就是根据某种分布生成样本 。举个例子,线性同余发生器就是根据均匀分布生成样本,这就很简单的采样了。 2. 蒙特卡罗算法 假设现在我们有个如下所示的定积分需要进行计算, $$ \thet 阅读全文
posted @ 2018-12-14 12:27 狂徒归来 阅读(1245) 评论(0) 推荐(0) 编辑
摘要:Adaboost和GBDT的区别以及xgboost和GBDT的区别 以下内容转自 https://blog.csdn.net/chengfulukou/article/details/76906710 ,本文主要用作记录收藏 AdaBoost VS GBDT 和AdaBoost一样,Gradient 阅读全文
posted @ 2018-12-04 20:49 狂徒归来 阅读(1231) 评论(0) 推荐(0) 编辑
摘要:布隆过滤器 布隆过滤器在海量数据的处理应用较为广泛,比如,怎么判断一亿个url里面是不是有重复的。布隆过滤器结合了bitmap和hash的思想,bitmap的做法是使用一个bit来表示某个对象是否有出现,但是其所需要的空间跟所处理对象的最大值有关。 布隆过滤器采用k个hash函数将对象hash成 阅读全文
posted @ 2018-12-03 15:46 狂徒归来 阅读(178) 评论(0) 推荐(0) 编辑
摘要:混淆矩阵、准确率、召回率、ROC曲线、AUC 假设有一个用来对猫(cats)、狗(dogs)、兔子(rabbits)进行分类的系统,混淆矩阵就是为了进一步分析性能而对该算法测试结果做出的总结。假设总共有 27 只动物:8只猫, 6条狗,13只兔子。结果的混淆矩阵如上图所示,我们可以发现,只有主对角线 阅读全文
posted @ 2018-11-30 15:29 狂徒归来 阅读(5684) 评论(0) 推荐(0) 编辑
摘要:backpropagation算法示例 下面举个例子,假设在某个mini batch的有样本X和标签Y,其中XRm×2,YRm×1,现在有个两层的网络,对应的计算如下: $$ \begin{split} i_1 &= XW_1+ b_1\\ 阅读全文
posted @ 2018-11-27 21:01 狂徒归来 阅读(473) 评论(0) 推荐(0) 编辑
摘要:spaCy 并行分词 在使用spacy的时候,感觉比nltk慢了许多,一直在寻找并行化的方案,好在找到了,下面给出spaCy并行化的分词方法使用示例: 阅读全文
posted @ 2018-11-23 16:11 狂徒归来 阅读(1796) 评论(0) 推荐(0) 编辑
摘要:点到平面的距离计算 如上图所示,假设现在有一平面S WX+b=0 其中W,X都是向量,现有平面外一点Q,求Q到平面的距离。 我们假设平面内有一点P,并且平面的法向量为n=(W1,W2,,Wn),那么有$ 阅读全文
posted @ 2018-11-14 14:04 狂徒归来 阅读(4011) 评论(0) 推荐(1) 编辑
摘要:Backpropagation Through Time (BPTT) 梯度消失与梯度爆炸 下面的图显示的是RNN的结果以及数据前向流动方向 假设有 $$ \begin{split} h_t &= \tanh W(xtht1)\\ 阅读全文
posted @ 2018-11-14 10:57 狂徒归来 阅读(850) 评论(0) 推荐(0) 编辑
摘要:深度学习中常用的优化器简介 SGD mini batch SGD 是最基础的优化方法,是后续改良方法的基础。下式给出SGD的更新公式 θt=θt1αθJ(θ) 其中α是学习速率。 SGD wi 阅读全文
posted @ 2018-11-07 12:57 狂徒归来 阅读(1368) 评论(0) 推荐(0) 编辑
摘要:GloVe 模型介绍 下面的内容主要来自https://blog.csdn.net/u014665013/article/details/79642083 GloVe的推导 GloVe是基于共现信息来获得词的分布表示的,所以需要统计词的共现对信息。在设定的窗口内,统计中心词k与其上下文词i阅读全文
posted @ 2018-11-07 12:07 狂徒归来 阅读(564) 评论(0) 推荐(0) 编辑
摘要:GBDT & XGBoost 回归树 单棵回归树可以表示成如下的数学形式 f(x)=jTwjI(xRj) 其中T为叶节点的个数,I为指示函数。 回归树的参数学习 当给定树的结构的时候,即知道哪些点划分到哪些叶节点后, 阅读全文
posted @ 2018-11-06 14:48 狂徒归来 阅读(286) 评论(0) 推荐(0) 编辑
摘要:对数线性模型与线性链条件随机场 对数线性模型 我们从书本上知道线性链条件随机场就是对数线性模型,逻辑回归也是对数线性模型。对数线性模型的一般形式如下所示: p(y|x;w)=expj=1JwjFj(x,y)Z(x,w) 其中x,y分别是输 阅读全文
posted @ 2018-11-05 15:41 狂徒归来 阅读(631) 评论(0) 推荐(0) 编辑
摘要:LR & SVM 的区别 相同点 1. LR和SVM都是分类算法。 2. 如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的。 3. LR和SVM都是监督学习算法。 4. LR和SVM都是判别模型。 不同点 1. 损失函数不一样 2. 支持向量机只考虑局部的边界线附近 阅读全文
posted @ 2018-10-26 18:06 狂徒归来 阅读(415) 评论(0) 推荐(0) 编辑
摘要:EM算法推导 网上和书上有关于EM算法的推导,都比较复杂,不便于记忆,这里给出一个更加简短的推导,用于备忘。 在不包含隐变量的情况下,我们求最大似然的时候只需要进行求导使导函数等于0,求出参数即可。但是包含隐变量,直接求导就变得异常复杂,此时需要EM算法,首先求出隐变量的期望值(E步),然后,把隐变 阅读全文
posted @ 2018-10-26 13:12 狂徒归来 阅读(368) 评论(0) 推荐(0) 编辑
摘要:K means算法的优缺点 优点:原理简单,实现容易 缺点: 1. 收敛较慢 2. 算法时间复杂度比较高 O(nkt) 3. 不能发现非凸形状的簇 4. 需要事先确定超参数K 5. 对噪声和离群点敏感 6. 结果不一定是全局最优,只能保证局部最优 阅读全文
posted @ 2018-10-26 12:17 狂徒归来 阅读(9750) 评论(0) 推荐(0) 编辑
摘要:自助采样包含训练集里63.2%的样本? 在学习随机森林的时候,经常会看到这么一句话“ 自助采样法给bagging带来的好处就是:由于每个学习器只是使用了% 63.2 的数据,剩下的约%36.8的样本可以用作验证集来对泛化性能进行“包外估计”。 “ 那么这个63.2%是怎么来的呢?假设我们有n个样本, 阅读全文
posted @ 2018-10-25 12:29 狂徒归来 阅读(1479) 评论(0) 推荐(0) 编辑
摘要:指数加权移动平均 以下内容来自 https://zhuanlan.zhihu.com/p/32335746,纯用作记录 指数加权移动平均(Exponentially Weighted Moving Average),他是一种常用的序列处理方式。在t时刻,移动平均值公式是 $$ v_t = \be 阅读全文
posted @ 2018-10-24 17:09 狂徒归来 阅读(1894) 评论(0) 推荐(0) 编辑
摘要:牛顿法与梯度下降法 梯度下降法 梯度下降法非常常用,其利用的是一阶导数,进行逼近,具体的更新方法如下: xn+1=xnαf(xn) 其中α为学习速率。 牛顿法 牛顿利用到了二阶导数的信息,其推导需要利用到泰勒的二阶展开,具体如下: $$f(x+ 阅读全文
posted @ 2018-10-24 17:08 狂徒归来 阅读(348) 评论(0) 推荐(0) 编辑
摘要:主成分分析 PCA 协方差矩阵 假设我们有 X=(X1X2Xm)Rm×n 那么协方差矩阵 $$ C_x= \dfrac{1}{n 1}XX^T = \dfrac 阅读全文
posted @ 2018-10-24 10:39 狂徒归来 阅读(1389) 评论(0) 推荐(0) 编辑
摘要:TensorFlow TFRecord封装不定长的序列数据(文本) 在实验室环境中,通常数据都是一次性导入内存的,然后使用手工写的数据mini batch函数来切分数据,但是这样的做法在海量数据下显得不太合适:1)内存太小不足以将全部数据一次性导入;2)数据切分和模型训练之间无法异步,训练过程易受到 阅读全文
posted @ 2018-05-09 13:47 狂徒归来 阅读(4378) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示