随笔分类 -  machine learning for hacker系列

R语言在机器学习上应用
摘要:本章是上一章邮件过滤技术的延伸,上一章的内容主要是过滤掉垃圾邮件,而这里要讲的是对那些正常的邮件是否可以加入个性化元素,由于每个用户关心的主题并非一样(有人喜欢技术类型的邮件或者购物促销方便的内容邮件等)。如何把邮件按照用户的关注程度分类,把重要邮件优先让用户浏览, 无疑会大大的增加用户的体验。 Tapestry作为最早的个性化邮箱,它通过分析用户阅读邮件的行为习惯对邮件进行排序,提供个性化服务。这个想结合最近的做的项目(游戏推荐)一起讲,跳过这一章看机器学习里面的回归问题。 阅读全文
posted @ 2013-09-27 10:20 kobeshow 阅读(368) 评论(0) 推荐(0) 编辑
摘要:本章主要介绍了分类算法里面的一种最基本的分类器:朴素贝叶斯算法(NB),算法性能正如英文缩写的一样,很NB,尤其在垃圾邮件检测领域,关于贝叶斯的网上资料也很多,这里推荐那篇刘未鹏写的http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/,作者深入浅出的概述了贝叶斯背后的思想跟应用领域,关于其理论方面可以参考斯坦福大学NG的machine learning cs299的讲义,关于代码实现可以参考一些开源的包或者自己动手写(之前,闲来无事写了一个基于MRjob的MapReduce版本),关于成熟开源工具包可以参考scikit,ora. 阅读全文
posted @ 2013-09-23 16:06 kobeshow 阅读(606) 评论(0) 推荐(1) 编辑
摘要:本章主要讲了对数据的一些基本探索,常见的six numbers,方差,均值等1 > data.file heights.weights heights summary(heights)5 Min. 1st Qu. Median Mean 3rd Qu. Max. 6 54.26 63.51 66.32 66.37 69.17 79.00 上面是six numbers:最小值,第一个四分位数,中位数(注意跟均值的区别),均值,第三个四分位数,最大值中位数跟均值的区别:中位数 就是指数据排序后处于中间的那个数,而均值就是算术平均值,在R中可以直接... 阅读全文
posted @ 2013-09-22 17:00 kobeshow 阅读(603) 评论(0) 推荐(1) 编辑
摘要:开篇:首先这本书的名字很霸气,全书内容讲的是R语言在机器学习上面的应用,一些基本的分类算法(tree,SVM,NB),回归算法,智能优化算法,维度约减等,机器学习领域已经有很多成熟的R工具箱,毕竟这个领域被统计学称霸了十多年,常用R工具箱都可以在这里面找到http://www.rdatamining.com/docs,http://www.mloss.org/software/本书第一张介绍了R以及相应包的安装,同时拿了UFO数据集进行练手,数据集以及源码网上都有的首先加载数据集(博客园的插入代码不支持R语言!!!!)1 ufo good.rows length(which(!good.r.. 阅读全文
posted @ 2013-09-18 13:49 kobeshow 阅读(795) 评论(0) 推荐(0) 编辑