摘要: zeppelin是spark的web版本notebook编辑器,相当于ipython的notebook编辑器。 一Zeppelin安装 (前提是spark已经安装好) 1 下载https://zeppelin.apache.org/download.html(下载编译好的bin版) 2 解压运行:s 阅读全文
posted @ 2016-07-19 14:40 rongyux 阅读(4969) 评论(0) 推荐(0) 编辑
摘要: MapR的分布式集群安装过程还是很艰难的,远远没有计划中的简单。本人总结安装配置,由于集群有很多机器,手动每台配置是很累的,编写了一个自动化配置脚本,下面以脚本为主线叙述(脚本并不完善,后续继续完善中)。 编写脚本需要shell基础的,还要掌握awk和sed等统计手段为佳。操作系统是CentOS7。 阅读全文
posted @ 2016-07-11 17:26 rongyux 阅读(2120) 评论(0) 推荐(0) 编辑
摘要: 一 引言 本程序是一个完整的机器学习过程,先编写基于python的爬虫脚本,爬取目标论坛网站的评论到本地存储,然后使用贝叶斯分类模型对评论进行分类,预测新 的评论是否为垃圾评论。如果遇到大数据量的问题,可以把贝叶斯算法写成mapreduce模式,map负责把数据集划分成键值对格式,类序号为key,属 阅读全文
posted @ 2016-07-05 21:47 rongyux 阅读(2618) 评论(0) 推荐(3) 编辑
摘要: 今天做了一个hadoop分享,总结下来,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等。 一 引言 1、海量日志数据,提取出某日访问百度次数最多的那个IP 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可 阅读全文
posted @ 2016-07-05 20:38 rongyux 阅读(1491) 评论(4) 推荐(0) 编辑
摘要: k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k。k均值是基于相似度的聚类,为没有标签的一簇实例分为一类。 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定,可视化数据分布,直观确定即可); 2 遍历数据集的每个实例,计算其到每个质心的相似度,这里也就是欧 阅读全文
posted @ 2016-07-04 21:55 rongyux 阅读(10034) 评论(0) 推荐(0) 编辑
摘要: Adaboost提升算法是机器学习中很好用的两个算法之一,另一个是SVM支持向量机;机器学习面试中也会经常提问到Adaboost的一些原理;另外本文还介绍了一下非平衡分类问题的解决方案,这个问题在面试中也经常被提到,比如信用卡数据集中,失信的是少数,5:10000的情况下怎么准确分类? 一 引言 1 阅读全文
posted @ 2016-06-27 22:56 rongyux 阅读(3900) 评论(4) 推荐(4) 编辑
摘要: 本文介绍logistic回归,和改进算法随机logistic回归,及一个病马是否可以治愈的案例。例子中涉及了数据清洗工作,缺失值的处理。 一 引言 1 sigmoid函数,这个非线性函数十分重要,f(z) = 1 / (1 + e^(-z) ), 画图如下: 这个函数可以很好的把数轴上的值映射到0, 阅读全文
posted @ 2016-06-25 21:35 rongyux 阅读(4431) 评论(1) 推荐(4) 编辑
摘要: 本人看过的关联规则博文,很少有清晰的把关联规则的算法说很明白的,希望读者读完本文可以有新的收获。本文是在默认读者有相关机器学习算法基础的,总结和提升对关联规则代码实现的理解,并介绍相关案例。语言:python 一 引言 关联规则起初是在购物篮分析中发现的,沃尔玛超市在美国某地区啤酒和尿布放在一起卖, 阅读全文
posted @ 2016-06-24 21:45 rongyux 阅读(3447) 评论(1) 推荐(3) 编辑
摘要: 学习了那么多机器学习模型,一切都是为了实践,动手自己写写这些模型的实现对自己很有帮助的,坚持,共勉。本文主要致力于总结贝叶斯实战中程序代码的实现(python)及朴素贝叶斯模型原理的总结。python的numpy包简化了很多计算,另外本人推荐使用pandas做数据统计。 一 引言 让你猜测一个身高2 阅读全文
posted @ 2016-06-20 22:19 rongyux 阅读(24960) 评论(6) 推荐(3) 编辑
摘要: 由于机器学习算法在处理大数据处理的时候在所难免的会效率降低,公司需要搭建hadoop集群,最后采用了商业版的Hadoop2(MapR)。 官网: http://doc.mapr.com/display/MapR/Installing+MapR+Software 一 前期有一些集群的准备工作: 请参考 阅读全文
posted @ 2016-06-17 15:01 rongyux 阅读(740) 评论(0) 推荐(1) 编辑