2016 年 7月 5 日随笔档案 - rongyux

2016年7月5日

摘要：一引言本程序是一个完整的机器学习过程，先编写基于python的爬虫脚本，爬取目标论坛网站的评论到本地存储，然后使用贝叶斯分类模型对评论进行分类，预测新的评论是否为垃圾评论。如果遇到大数据量的问题，可以把贝叶斯算法写成mapreduce模式，map负责把数据集划分成键值对格式，类序号为key，属阅读全文

posted @ 2016-07-05 21:47 rongyux 阅读(2618) 评论(0) 推荐(3) 编辑

Hadoop和YARN :map+shuffle+reduce走读

摘要：今天做了一个hadoop分享，总结下来，包括mapreduce，及shuffle深度讲解，还有YARN框架的详细说明等。一引言 1、海量日志数据，提取出某日访问百度次数最多的那个IP 算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理； 2.可阅读全文

posted @ 2016-07-05 20:38 rongyux 阅读(1491) 评论(4) 推荐(0) 编辑

rongyux

公告