随笔分类 - 日常装逼系列
装逼乱搞
摘要:用Python实现基于Hadoop Stream的mapreduce任务 因为Hadoop Stream的存在,使得任何支持读写标准数据流的编程语言实现map和reduce操作成为了可能。 为了方便测试map代码和reduce代码,下面给出一个Linux环境下的shell 命令: 可以轻松的在没有h
阅读全文
摘要:给定范围 [m, n],其中 0 using namespace std; static auto x = "" { std::ios::sync_with_stdio(false); std::cin.tie(NULL); return 0; }(); class Solution { publi
阅读全文
摘要:Python 装饰器初探 在谈及Python的时候,装饰器一直就是道绕不过去的坎。面试的时候,也经常会被问及装饰器的相关知识。总感觉自己的理解很浅显,不够深刻。是时候做出改变,对Python的装饰器做个全面的了解了。 1. 函数装饰器 直接上代码,看看装饰器到底干了些什么? 上面的Python代码,
阅读全文
摘要:25匹马,5个跑道,每个跑道最多能有1匹马进行比赛,最少比多少次能比出前3名?前5名? 最近在做笔试的题目时,遇到了这种类型的题目,今天来分析一下解题的思路: 由于有25匹马,5个跑道,每个跑道最多只能有一匹马进行奔跑,那么我们可以将25匹马均分成5组,各组内进行一次较量,假设每组得到的结果由快道慢
阅读全文
摘要:Ubuntu 深度炼丹环境配置 深度炼丹最麻烦的就是环境配置了,下面过程记录了本人进行深度炼丹环境的配置。 首先是安装图形显卡驱动,按如下指令进行即可 这样便可以安装完图形显卡驱动。 紧接着就是安装CUDA,这是一个比较麻烦的工作。首先是从官网上下载最新的CUDA版本,下面的命令也可以,但是安装得到
阅读全文
摘要:FastText 介绍 在面试百度的NLP工程师时,被问及常用的词向量表示学习方法有哪些,我说知道word2vec,然后大佬又问我知道FastText么... 这就很尴尬了,不会! 不同于word2vec, fasttext利用的是词的形态学信息,也就是词的内部构造信息,也就是子词信息。话说,利用f
阅读全文
摘要:Policy based Approach policy based 强化学习通常是要学习一个actor, actor可以用 来确定。如果我们用actor来玩游戏,那么每一局可以看成是一个操作序列$\tau=\{s_1, a_1, r_1, s_2, a_2, r_2
阅读全文
摘要:如何理解C4.5算法解决了ID3算法的偏向于选择取值较多的特征问题 考虑一个极端情况,某个属性(特征)的取值很多,以至于每一个取值对应的类别只有一个。这样根据可以得知后面的那一项的值为0。这样得到信息增益会很大。C4.5算法加了一个惩罚项$$H_A(D) = \sum_
阅读全文
摘要:Baum Welch估计HMM参数实例 下面的例子来自于《What is the expectation maximization algorithm?》 题面是:假设你有两枚硬币A与B,这两枚硬币抛出正面的概率分别为和。下面给出一些观测的结果,需要你去估计这
阅读全文
摘要:这个问题困扰了我许久,下面是我搜集整理到的答案 1. 对偶问题将原始问题中的约束转为了对偶问题中的等式约束 2. 方便核函数的引入 3. 改变了问题的复杂度。由求特征向量w转化为求比例系数a,在原始问题下,求解的复杂度与样本的维度有关,即w的维度。在对偶问题下,只与样本数量有关。
阅读全文
摘要:Baum Welch算法就是EM算法,所以首先给出EM算法的Q函数 换成HMM里面的记号便于理解 $$Q(\lambda,\lambda') = \sum_zP(I|O,\lambda')\log P(I,O|\l
阅读全文
摘要:LR采用的Sigmoid函数与最大熵(ME) 的关系 从ME到LR 先直接给出最大熵模型的一般形式,后面再给出具体的推导过程。 $$\begin{align } P_w(y|x) &= \dfrac{1}{Z_w(x)}\exp\left(\sum_{i=1}^{n}w_if_i(x,y)\righ
阅读全文
摘要:01背包的常数优化的一点解释 在大牛dd的背包九讲中,提及01背包在一个常数级别的优化,不过作者未做出解释(个优化之所以成立的原因请读者自己思考)。下面记录自己的理解心得。 其中 . 注意到在空间优化后,内层循环已经变成逆序的了。也就是说,在给定物品i的时候,
阅读全文
摘要:1. 首先是下载中文维基数据 wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki latest pages articles.xml.bz2 2. 下载提取工具https://github.com/attardi/wikiextractor 3
阅读全文
摘要:编译TensorFlow CPU指令集优化版 如题,CPU指令集优化版,说的是针对某种特定的CPU型号进行过优化的版本。通常官方给的版本是没有针对特定CPU进行过优化的,有网友称,优化过的版本相比优化前的版本性能提升大概30%。 下面简单介绍下在Ubuntu上进行Tensor Flow编译 必要的环
阅读全文
摘要:Linux 命令学习记录 1. 取指定文件夹下的任意一个文件,并用vim打开 2. 统计给定文件夹下文件的数量
阅读全文
摘要:Tensorflow 笔记 tensorboard 的使用 TensorFlow提供非常方便的可视化命令Tensorboard,先上代码 首先是定义一张图,然后跑图。 这里需要注意一点是,FileWriter一定要在sess.run执行前先执行,也就是说,你得把 写在 之前。参数 表示的是你的 目录
阅读全文
摘要:爬淘宝的商品信息下 (下) 实现定时任务爬取 "上回我们讲到用scrapy爬取淘宝的商品信息" , 今天的任务是实现爬虫的周期作业功能。商品信息的交易量评论数,等等,会处在变动之中,因此需要爬虫能够在每天预设的时间爬取网页。 假设,我们现在的任务是,要爬虫在凌晨3点,也就是 每天的凌晨3:00,(对
阅读全文
摘要:BackPropagation BackPropagation中文翻译是后向传播算法,其实更形象的翻译是 误差逆向传播 。其实没什么,不就是利用了 链式法则 。 链式法则(英文chain rule)是 "微积分" 中的 "求导" 法则,用于求一个复合函数的导数,是在微积分的求导运算中一种常用的方法。
阅读全文
摘要:交叉熵损失函数 熵的本质是香浓信息量的期望 既然 熵的本质是香浓信息量的期望 ,那么便有 $$ H(p)=E[p_i\times\log(\frac{1}{p_i})]=\sum p_i\times\log\frac{1}{
阅读全文