machine learning for hacker系列 - 随笔分类 - kobeshow

machine learning for hacker记录(4) 智能邮箱（排序学习&推荐系统）

摘要：本章是上一章邮件过滤技术的延伸，上一章的内容主要是过滤掉垃圾邮件，而这里要讲的是对那些正常的邮件是否可以加入个性化元素，由于每个用户关心的主题并非一样（有人喜欢技术类型的邮件或者购物促销方便的内容邮件等）。如何把邮件按照用户的关注程度分类，把重要邮件优先让用户浏览，无疑会大大的增加用户的体验。 Tapestry作为最早的个性化邮箱，它通过分析用户阅读邮件的行为习惯对邮件进行排序，提供个性化服务。这个想结合最近的做的项目(游戏推荐)一起讲，跳过这一章看机器学习里面的回归问题。阅读全文

posted @ 2013-09-27 10:20 kobeshow 阅读(383) 评论(0) 推荐(0)

machine learning for hacker记录(3) 贝叶斯分类器

摘要：本章主要介绍了分类算法里面的一种最基本的分类器：朴素贝叶斯算法（NB），算法性能正如英文缩写的一样，很NB，尤其在垃圾邮件检测领域，关于贝叶斯的网上资料也很多，这里推荐那篇刘未鹏写的http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/，作者深入浅出的概述了贝叶斯背后的思想跟应用领域，关于其理论方面可以参考斯坦福大学NG的machine learning cs299的讲义，关于代码实现可以参考一些开源的包或者自己动手写（之前，闲来无事写了一个基于MRjob的MapReduce版本），关于成熟开源工具包可以参考scikit,ora. 阅读全文

posted @ 2013-09-23 16:06 kobeshow 阅读(622) 评论(0) 推荐(1)

machine learning for hacker记录(2) 数据分析

摘要：本章主要讲了对数据的一些基本探索，常见的six numbers,方差,均值等1 > data.file heights.weights heights summary(heights)5 Min. 1st Qu. Median Mean 3rd Qu. Max. 6 54.26 63.51 66.32 66.37 69.17 79.00 上面是six numbers：最小值,第一个四分位数,中位数(注意跟均值的区别),均值,第三个四分位数,最大值中位数跟均值的区别：中位数就是指数据排序后处于中间的那个数，而均值就是算术平均值，在R中可以直接... 阅读全文

posted @ 2013-09-22 17:00 kobeshow 阅读(639) 评论(0) 推荐(1)

machine learning for hacker记录(1) R与机器学习

摘要：开篇：首先这本书的名字很霸气，全书内容讲的是R语言在机器学习上面的应用，一些基本的分类算法(tree,SVM,NB),回归算法,智能优化算法,维度约减等，机器学习领域已经有很多成熟的R工具箱，毕竟这个领域被统计学称霸了十多年，常用R工具箱都可以在这里面找到http://www.rdatamining.com/docs，http://www.mloss.org/software/本书第一张介绍了R以及相应包的安装，同时拿了UFO数据集进行练手，数据集以及源码网上都有的首先加载数据集（博客园的插入代码不支持R语言！！！！）1 ufo good.rows length(which(!good.r.. 阅读全文

posted @ 2013-09-18 13:49 kobeshow 阅读(827) 评论(0) 推荐(0)

YYGamer->QQSearcher

机器学习、搜索、数据分析、广告、产品、运营

随笔分类 - machine learning for hacker系列

公告