随笔分类 -  Hadoop相关

摘要:本章主要讲述MLlib包里面的分类算法实现,目前实现的有LogisticRegression、SVM、NaiveBayes,前两种算法针对各自的目标优化函数跟正则项,调用了Optimization模块下的随机梯度的优化,并行实现的策略主要在随机梯度的计算,而贝叶斯的的并行策略主要是计算类别的先验概率跟特征的条件概率上面,详细情况如下LogisticRegression.scala文件第一部分 LogisticRegressionModel类 1 /** 2 3 * Classification model trained using Logistic Regression. 4 5 ... 阅读全文
posted @ 2014-03-28 13:57 kobeshow 阅读(1933) 评论(0) 推荐(0) 编辑
摘要:基于Spark的一个生态产品--MLlib,实现了经典的机器学算法,源码分8个文件夹,classification文件夹下面包含NB、LR、SVM的实现,clustering文件夹下面包含K均值的实现,linalg文件夹下面包含SVD的实现(稀疏矩阵的表示),recommendation文件夹下面包含als,矩阵分解实现,regression文件夹下面实现了线性回归,L2的线性回归,L1的线性回归,Util文件夹下面包含了可以为各个算法生成toy-data的文件,另外还有一个DataValidators.scala文件,api文件夹下面是PythonMLLibAPI.scala 文件,最后一个 阅读全文
posted @ 2014-03-25 13:55 kobeshow 阅读(1895) 评论(1) 推荐(0) 编辑
摘要:利用周末的时间安装学习了下最近很火的Spark0.9.0(江湖传言,要革hadoop命,O(∩_∩)O),并体验了该框架下的机器学习包MLlib(spark解决的一个重点就是高效的运行迭代算法),下面是整个安装过程(图文并茂)说明:安装环境,centos64位12G的服务器 安装方式,单机伪分布式版一,安装JDK由于机器之前已经安装了jdk1.7.0,此步骤略去,网上可以搜到很多安装教程。二,安装Hadoop我这里安装的是hadoop2.2.0第1步,添加hadoop用户(可选)第2步,ssh免密码登陆 首先,安装Openssh 然后,设置ssh的免密码登陆 红... 阅读全文
posted @ 2014-03-23 15:30 kobeshow 阅读(1514) 评论(0) 推荐(0) 编辑
摘要:接着上一篇文章常见算法的mapreduce案例(1)继续挖坑,本文涉及到算法的基本原理,文中会大概讲讲,但具体有关公式的推导还请大家去查阅相关的文献文章。下面涉及到的数据挖掘算法会有:Logistict 回归,SVM算法,关联规则apriori算法,SlopeOne推荐算法,二度人脉社交推荐算法logistict regression的map-reduce 逻辑回归作为经典的分类算法,工业界也是应用的非常广泛(点击率预估,广告投放等),貌似大部分互联网公司都会用吧,关于logistict regression的应用研究主要分两块:1)用什么样的正则(L2,L1); 2)使用什么优化算... 阅读全文
posted @ 2014-03-16 11:23 kobeshow 阅读(3219) 评论(0) 推荐(0) 编辑
摘要:大数据这个名词是被炒得越来越火了,各种大数据技术层出不穷,做数据挖掘的也跟着火了一把,呵呵,现今机器学习算法常见的并行实现方式:MPI,Map-Reduce计算框架,GPU方面,graphlab的图并行,Spark计算框架,本文讲讲一些机器学习算法的map-reduce并行策略,尽管有些算法确实不适合map-reduce计算,但是掌握一些并行思想策略总归不是件坏事,大家如果对某个算法有更好的并行策略,也请多多指教,欢迎大家交流,OK,下面先从一个最基本的均值、方差的并行开始。均值、方差的map-reduce 一堆数字的均值、方差公式,相信都很清楚,具体怎么设计map跟reduce函数... 阅读全文
posted @ 2014-03-14 12:56 kobeshow 阅读(6540) 评论(1) 推荐(2) 编辑
摘要:Slope One 算法 是一种基于评分的预测算法, 本质上也是一种基于项目的算法。与一般的基于项目的算法不同, 该算法不计算项目之间的相似度, 而是用一种简单的线性回归模型进行预测(可以扩展) 算法易于实现, 计算速度快, 可扩展性好, 同时对数据稀疏性有较好的适应性。 例如下面表格里有3个用户对4个物品的评分101102103104UserX53.5UserY2542UserZ4.53.514 求物品两两之间的差值平均分: 物品102和101:{(3.5-5)+(5-2)+(3.5-4.5)}/3=0.5/3 物品103跟101:{(4-2)+(1-4.5)}/2=-... 阅读全文
posted @ 2014-02-18 10:30 kobeshow 阅读(4590) 评论(0) 推荐(0) 编辑
摘要:无意间在部门的svn看到以前老员工的Hive优化文档,看看了,写的挺详细的,结合hadoop In action(陆) 一书的内容在这里做个汇总1,列裁剪 在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:1 SELECT a,b FROM T WHERE e 对,,。所以商品表的hdfs读只会是一次。问题5:先join生成临时表,在union all还是写嵌套查询,这是个问题。比如以下例子: 1 Select * 2 From 3 ( select * 4 From t1 5 Uion all 6 select * 7 From t4... 阅读全文
posted @ 2013-09-18 10:54 kobeshow 阅读(653) 评论(0) 推荐(0) 编辑