摘要: 数据挖掘--非常火爆的一个话题,跟大数据结合的模式也是赚足了噱头,工业界各土豪公司也是砸下重金网罗各种数据挖掘/机器学习人才。如今掌握一门挖掘技巧的实用性跟急迫性。在学习的过程中,除了相关理论的学习之外,最重要的就是如何把理论用于实践,当然做项目是最直接有效的实践方式,除此之外,参加一些数据挖... 阅读全文
posted @ 2014-11-24 12:14 kobeshow 阅读(32943) 评论(13) 推荐(0) 编辑
摘要: 本文将要讨论基于矩阵分解的推荐算法,这一类型的算法通常会有很高的预测精度,也活跃于各大推荐系统竞赛上面,前段时间的百度电影推荐最终结果的前10名貌似都是把矩阵分解作为一个单模型,最后各种ensemble,不知道正在进行的阿里推荐比赛(http://102.alibaba.com/competition/addDiscovery/index.htm),会不会惊喜出现。。。。好了,闲话不扯了,本文打算写一篇该类型推荐算法的入门篇目录一,基于矩阵分解的推荐算法相关理论介绍二,C++代码实现三,总结跟展望一下四,后续计划一,基于矩阵分解的推荐算法相关理论介绍 我们知道,要做推荐系统,最基本的一个数.. 阅读全文
posted @ 2014-04-08 13:51 kobeshow 阅读(23685) 评论(8) 推荐(5) 编辑
摘要: 本章主要讲述MLlib包里面的分类算法实现,目前实现的有LogisticRegression、SVM、NaiveBayes,前两种算法针对各自的目标优化函数跟正则项,调用了Optimization模块下的随机梯度的优化,并行实现的策略主要在随机梯度的计算,而贝叶斯的的并行策略主要是计算类别的先验概率跟特征的条件概率上面,详细情况如下LogisticRegression.scala文件第一部分 LogisticRegressionModel类 1 /** 2 3 * Classification model trained using Logistic Regression. 4 5 ... 阅读全文
posted @ 2014-03-28 13:57 kobeshow 阅读(1932) 评论(0) 推荐(0) 编辑
摘要: 基于Spark的一个生态产品--MLlib,实现了经典的机器学算法,源码分8个文件夹,classification文件夹下面包含NB、LR、SVM的实现,clustering文件夹下面包含K均值的实现,linalg文件夹下面包含SVD的实现(稀疏矩阵的表示),recommendation文件夹下面包含als,矩阵分解实现,regression文件夹下面实现了线性回归,L2的线性回归,L1的线性回归,Util文件夹下面包含了可以为各个算法生成toy-data的文件,另外还有一个DataValidators.scala文件,api文件夹下面是PythonMLLibAPI.scala 文件,最后一个 阅读全文
posted @ 2014-03-25 13:55 kobeshow 阅读(1895) 评论(1) 推荐(0) 编辑
摘要: 利用周末的时间安装学习了下最近很火的Spark0.9.0(江湖传言,要革hadoop命,O(∩_∩)O),并体验了该框架下的机器学习包MLlib(spark解决的一个重点就是高效的运行迭代算法),下面是整个安装过程(图文并茂)说明:安装环境,centos64位12G的服务器 安装方式,单机伪分布式版一,安装JDK由于机器之前已经安装了jdk1.7.0,此步骤略去,网上可以搜到很多安装教程。二,安装Hadoop我这里安装的是hadoop2.2.0第1步,添加hadoop用户(可选)第2步,ssh免密码登陆 首先,安装Openssh 然后,设置ssh的免密码登陆 红... 阅读全文
posted @ 2014-03-23 15:30 kobeshow 阅读(1514) 评论(0) 推荐(0) 编辑
摘要: 接着上一篇文章常见算法的mapreduce案例(1)继续挖坑,本文涉及到算法的基本原理,文中会大概讲讲,但具体有关公式的推导还请大家去查阅相关的文献文章。下面涉及到的数据挖掘算法会有:Logistict 回归,SVM算法,关联规则apriori算法,SlopeOne推荐算法,二度人脉社交推荐算法logistict regression的map-reduce 逻辑回归作为经典的分类算法,工业界也是应用的非常广泛(点击率预估,广告投放等),貌似大部分互联网公司都会用吧,关于logistict regression的应用研究主要分两块:1)用什么样的正则(L2,L1); 2)使用什么优化算... 阅读全文
posted @ 2014-03-16 11:23 kobeshow 阅读(3212) 评论(0) 推荐(0) 编辑
摘要: 在平常的工作中,经常会有一些马虎的数据分析师,接到业务方提到的需求后,大致扫一遍然后就吭叽吭叽做起来,最后出的分析结果报告交给业务方后没多久就打回来,说不是他想要结果,仔细一讨论发现双方的指标定义不一致,从而导致了一顿白忙活,造成“十动仍拒”的下场。所以指标定义的清晰性是开始分析工作的前提。OK,本文要讲述的也是有关指标定义,是由talking data推出的移动游戏运营数据分析指标白皮书,目的是统一移动游戏数据指标的定义,主要涉及宏观层面的定义,下面分模块来看一,用户获取日新登用户数(daily new users)定义:每日注册并登陆游戏的用户数解决的问题:1)渠道贡献新用户份额 (... 阅读全文
posted @ 2014-03-14 23:58 kobeshow 阅读(4799) 评论(0) 推荐(1) 编辑
摘要: 大数据这个名词是被炒得越来越火了,各种大数据技术层出不穷,做数据挖掘的也跟着火了一把,呵呵,现今机器学习算法常见的并行实现方式:MPI,Map-Reduce计算框架,GPU方面,graphlab的图并行,Spark计算框架,本文讲讲一些机器学习算法的map-reduce并行策略,尽管有些算法确实不适合map-reduce计算,但是掌握一些并行思想策略总归不是件坏事,大家如果对某个算法有更好的并行策略,也请多多指教,欢迎大家交流,OK,下面先从一个最基本的均值、方差的并行开始。均值、方差的map-reduce 一堆数字的均值、方差公式,相信都很清楚,具体怎么设计map跟reduce函数... 阅读全文
posted @ 2014-03-14 12:56 kobeshow 阅读(6539) 评论(1) 推荐(2) 编辑
摘要: 无意中发现网上的一个数据分析R应用教程,看了几集感觉还不错,本文做一个学习笔记(知识点来源:视频内容+R实战+自己的理解),视频详细的信息请参考http://www.itao521.com/course/34,非常不错的网站,站长的Q群是323370861(这个群的童鞋们都很给力,学习也很上进,各种团购买hadoop,nosql,spark的视频学习),我网站会员ID是515,也欢迎各方朋友交流,OK,开始 统计的一些基础概念,如下图所示, 数据分析常用到的一些算法(下图貌似是Spss modeler里面的缩略图),常用的聚类,分类,维度归约,回归预测,时间序列算法都有一、基本操作创建... 阅读全文
posted @ 2014-03-12 22:04 kobeshow 阅读(2248) 评论(0) 推荐(0) 编辑
摘要: Shell编程用途广泛,不管是做运维的还是做数据挖掘模型,日常的一些工作中都能用到它,如定时跑模型,取数据等等。在网易云课堂中发现北大青鸟的Linux Shell脚本应用课程,11个短视频,讲的很基础,例子也举的很多,很适合入门,本文作为一个课堂记录了,详细视频可以观看官网的视频,地址是http://study.163.com/course/courseMain.htm?courseId=306001#/courseMain,下图是视频所要讲的内容。一 初始shell1,什么是shell?介于内核跟用户之间的解释程序,命令解释器,翻译官2,什么是脚本?一类使用特定语言,按预设顺序执行的文件.. 阅读全文
posted @ 2014-02-27 20:09 kobeshow 阅读(1824) 评论(3) 推荐(2) 编辑