摘要: 一 引言 本程序是一个完整的机器学习过程,先编写基于python的爬虫脚本,爬取目标论坛网站的评论到本地存储,然后使用贝叶斯分类模型对评论进行分类,预测新 的评论是否为垃圾评论。如果遇到大数据量的问题,可以把贝叶斯算法写成mapreduce模式,map负责把数据集划分成键值对格式,类序号为key,属 阅读全文
posted @ 2016-07-05 21:47 rongyux 阅读(2618) 评论(0) 推荐(3) 编辑
摘要: 今天做了一个hadoop分享,总结下来,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等。 一 引言 1、海量日志数据,提取出某日访问百度次数最多的那个IP 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可 阅读全文
posted @ 2016-07-05 20:38 rongyux 阅读(1491) 评论(4) 推荐(0) 编辑