摘要:
MCMC 浅谈 1. 采样(sampling)是什么 MCMC在采样算法中有着举足轻重的地位,那么什么是采样? 采样就是根据某种分布生成样本 。举个例子,线性同余发生器就是根据均匀分布生成样本,这就很简单的采样了。 2. 蒙特卡罗算法 假设现在我们有个如下所示的定积分需要进行计算, $$ \thet 阅读全文
摘要:
MapReduce 使用案例 MapReduce在面试过程中出现的频率还是挺高的,尤其是数据挖掘等岗位。通常面试官会出一个大数据题目,需要被试者根据题目设计基于MapReduce的算法来解答。我在一个大神的博客中找到相关的MapReduce使用案例,下面将链接分享出来。鉴于目前自身对MapReduc 阅读全文
摘要:
常见数据结构和算法的操作时空复杂度 本篇中的图片截取自其他网站 http://www.bigocheatsheet.com/ ,非自制 首先是各种排序算法的时空复杂度 然后是其他数据结构的各种操作的时间复杂度以及各自的空间复杂度 阅读全文
摘要:
Adaboost和GBDT的区别以及xgboost和GBDT的区别 以下内容转自 https://blog.csdn.net/chengfulukou/article/details/76906710 ,本文主要用作记录收藏 AdaBoost VS GBDT 和AdaBoost一样,Gradient 阅读全文
摘要:
布隆过滤器 布隆过滤器在海量数据的处理应用较为广泛,比如,怎么判断一亿个url里面是不是有重复的。布隆过滤器结合了bitmap和hash的思想,bitmap的做法是使用一个bit来表示某个对象是否有出现,但是其所需要的空间跟所处理对象的最大值有关。 布隆过滤器采用个hash函数将对象hash成 阅读全文
摘要:
混淆矩阵、准确率、召回率、ROC曲线、AUC 假设有一个用来对猫(cats)、狗(dogs)、兔子(rabbits)进行分类的系统,混淆矩阵就是为了进一步分析性能而对该算法测试结果做出的总结。假设总共有 27 只动物:8只猫, 6条狗,13只兔子。结果的混淆矩阵如上图所示,我们可以发现,只有主对角线 阅读全文
摘要:
backpropagation算法示例 下面举个例子,假设在某个mini batch的有样本X和标签Y,其中,现在有个两层的网络,对应的计算如下: $$ \begin{split} i_1 &= XW_1+ b_1\\ 阅读全文
摘要:
spaCy 并行分词 在使用spacy的时候,感觉比nltk慢了许多,一直在寻找并行化的方案,好在找到了,下面给出spaCy并行化的分词方法使用示例: 阅读全文
摘要:
Backpropagation Through Time (BPTT) 梯度消失与梯度爆炸 下面的图显示的是RNN的结果以及数据前向流动方向 假设有 $$ \begin{split} h_t &= \tanh W\\ 阅读全文