摘要: What is HDInsight? Microsoft Azure HDInsight 是基于 Hortonoworks Data Platform (HDP) 的 Hadoop 集群,包括Storm, HBase, Pig, Hive, Sqoop, Oozie, Ambari等(具体的组件请参... 阅读全文
posted @ 2015-06-01 17:49 Xuesong 阅读(2452) 评论(1) 推荐(1) 编辑
摘要: Spark本身用Scala语言编写,运行于Java虚拟机(JVM)。只要在安装了Java 6以上版本的便携式计算机或者集群上都可以运行spark。如果您想使用Python API需要安装Python解释器(2.6或者更高版本),请注意Spark暂不支持Python 3。下载Spark首先下载Spar... 阅读全文
posted @ 2015-05-05 00:21 Xuesong 阅读(2758) 评论(0) 推荐(2) 编辑
摘要: Learning Spark: Lightning-Fast Big Data Analysis 中文翻译行为纯属个人对于Spark的兴趣,仅供学习。如果我的翻译行为侵犯您的版权,请您告知,我将停止对此书的开源翻译。Translation the book of Learning Spark: Li... 阅读全文
posted @ 2015-04-22 11:12 Xuesong 阅读(6371) 评论(0) 推荐(0) 编辑
摘要: 1Unsupervised Learning1.1k-means clustering algorithm1.1.1算法思想1.1.2k-means的不足之处1.1.3如何选择K值1.1.4Spark MLlib 实现 k-means 算法1.2Mixture of Gaussians and th... 阅读全文
posted @ 2014-12-23 09:56 Xuesong 阅读(8073) 评论(4) 推荐(6) 编辑
摘要: Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 本系列文章是Andrew Ng 在斯坦福的机器学习课程 CS 229 的学习笔记。Machine Learning Algorithms Study Notes系列文... 阅读全文
posted @ 2014-11-14 09:23 Xuesong 阅读(976) 评论(0) 推荐(1) 编辑
摘要: Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 本系列文章是Andrew Ng 在斯坦福的机器学习课程 CS 229 的学习笔记。Machine Learning Algorithms Study Notes系列文... 阅读全文
posted @ 2014-11-13 15:45 Xuesong 阅读(3909) 评论(1) 推荐(2) 编辑
摘要: Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 目 录 1Introduction11.1What is Machine Learning11.2学习心得和笔记的框架12Supervised Learning32.... 阅读全文
posted @ 2014-11-13 15:30 Xuesong 阅读(1624) 评论(0) 推荐(1) 编辑
摘要: 前言 IntelliJ IDEA 编译生成 Jar 包的方式与 Eclipse 不同,如何将此 Maven 构建 Java 推荐引擎项目生成 Jar 包确实搜索了不少资料,有成功的有失败的,特将此验证成功的方法记录下来分享给遇到此类问题的朋友。开发环境 OS: Windows 8.1JRE: 1.7.0开发工具: IntelliJ IDEA 13.1.1Configuration and make project 1. 选中Java项目工程名称,在菜单中选择 File->project structure... (快捷键Ctrl+Alt+Shift+S)。2. 在弹出的窗口中左侧选中&q 阅读全文
posted @ 2014-04-04 10:19 Xuesong 阅读(91686) 评论(9) 推荐(4) 编辑
摘要: What is Oryx?大名鼎鼎的Sean Owen (http://www.linkedin.com/in/srowen) 正在 Cloudera 作为 Director of Data Science 专注投身于名为Oryx的开源机器学习项目当中。(Oryx意思是剑羚,属于非洲羚羊的一类分支)。如果您读过《Mahout in Action》这本书,您应该有印象:此书的作者之一就是Sean Owen。Oryx的开发意图在于帮助Hadoop用户构建机器学习模式并将其加以部署,这样我们就能够以实时方式查询并获取其结果——例如将其作为垃圾邮件过滤器或者推荐引擎的组成部分。作为Hadoop当中实现 阅读全文
posted @ 2014-03-20 19:24 Xuesong 阅读(3225) 评论(3) 推荐(4) 编辑
摘要: 本文主要内容是使用Windows Azure的VIRTUAL MACHINES和NETWORKS服务安装CDH (Cloudera Distribution Including Apache Hadoop)搭建Hadoop集群。项目中在私有云中使用CDH (Cloudera Distribution... 阅读全文
posted @ 2014-03-17 09:15 Xuesong 阅读(3654) 评论(3) 推荐(0) 编辑