摘要: 文本分类有很多种方法,朴素贝叶斯应该算是里面最容易的一种了吧。这篇文章简单介绍朴素贝叶斯的原理,然后是spark上的实现方法。 1,问题描述 现实中可能会一些问题,比如一个邮件是不是垃圾邮件?一个新闻是属于社会类还是科技类还是娱乐类?这些问题都可以抽象成:给定一些已经分类好的样本集合{(di,yi) 阅读全文
posted @ 2016-08-12 10:22 HOLD 阅读(608) 评论(0) 推荐(0) 编辑
摘要: 1,信息 \( i(x)=-log(p(x)) \) 事件x不确定性的度量,不确定性越大,信息量越大。 从信息编码角度,这是编码这一信息所需要的最小比特数(log以2为底,以e为底的叫做奈特)。 2,熵 \( H(X) = \sum_x{-p(x)log(p(x))} \) 随机变量X不确定的度量, 阅读全文
posted @ 2016-07-24 18:03 HOLD 阅读(1119) 评论(0) 推荐(0) 编辑
摘要: 1,基本概念 (1)期望 \( E(X)=\sum_i{x_ip_i} \) important E(kX) = kE(X) E(X+Y) = E(X)+E(Y) 当X和Y相互独立:E(XY)=E(X)E(Y) (这个不能反向推哦) (2)方差 \( D(X)=\sum_i{(x_i-E(X))^2 阅读全文
posted @ 2016-07-10 15:46 HOLD 阅读(1133) 评论(0) 推荐(0) 编辑
摘要: 前言:这里只罗列出一些重要的点,一来是知识点的梳理,二来便于查阅。 1.夹逼定理 英文叫做Squeeze theorem。维基百科是这样定义的: Let I be an interval having the point a as a limit point. Let f, g, and h be  阅读全文
posted @ 2016-07-04 22:48 HOLD 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 目录: 机器学习中的微积分 机器学习中的概率与统计 机器学习中的矩阵论 阅读全文
posted @ 2016-07-04 22:35 HOLD 阅读(238) 评论(0) 推荐(0) 编辑
摘要: Quaro上的问答,我感觉回答的非常好!What are the advantages of different classification algorithms?For instance, if we have large training data set with approx more t... 阅读全文
posted @ 2014-11-25 11:46 HOLD 阅读(594) 评论(0) 推荐(0) 编辑
摘要: 这篇文章浅谈一下我对机器学习中生成模型和判别模型的认识。首先,机器学习算法分为监督学习、半监督学习、非监督学习等。而对于监督学习,又可以分成生成学习(generative approach)和判别学习(discriminative approach)。下面是NG对这两个概念的解释:Algorithm... 阅读全文
posted @ 2014-11-23 21:25 HOLD 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.cnblogs.com/zhangziqiu/作者:张子秋本篇文章讲解了计算机的原码, 反码和补码. 并且进行了深入探求了为何要使用反码和补码, 以及更进一步的论证了为何可以用反码, 补码的加法计算原码的减法. 论证部分如有不对的地方请各位牛人帮忙指正! 希望本文对大家学习计算机基础有所帮助!一. 机器数和真值在学习原码, 反码和补码之前, 需要先了解机器数和真值的概念.1、机器数一个数在计算机中的二进制表示形式, 叫做这个数的机器数。机器数是带符号的,在计算机用一个数的最高位存放符号, 正数为0, 负数为1.比如,十进制中的数 +3 ,计算机字长为8位,转换成二进 阅读全文
posted @ 2013-09-20 12:01 HOLD 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 从网上找到了一个很深入浅出的介绍Frank-Wolf的算法,资料没有显示作者的名字,但是还要感谢这位不知名的作者。 阅读全文
posted @ 2013-05-28 21:18 HOLD 阅读(3436) 评论(0) 推荐(0) 编辑
摘要: 以前一直用word写论文,其实word没什么不好,现在很多的期刊会议也都提供word模板。但是,根据这两次惨痛的word写论文经验可以得出结论:最好不要用word来写论文。用word我遇到了两个令人抓狂令人抓狂的问题:1,word中公式排版很难用,如果公式较多,用word绝对会后悔 2,word版本过多,2003,2007,2010,现在还有2013,并且把一个版本中排好版的文档用另一个版本的word打开,基本上肯定会变,有的变得让你很shock,而且没有专门研究过这个word的人,很难了解这是如何发生的以及如何改正,如果你的论文可能多人会参与,你可能在多个电脑上编辑,最好别用word。所以, 阅读全文
posted @ 2013-05-13 13:35 HOLD 阅读(1053) 评论(0) 推荐(0) 编辑