0020.Spark机器学习 - 随笔分类 - 黎明程序员

windows spark1.6

摘要：jdk1.7 scala 2.10.5 spark 1.6.1 http://spark.apache.org/downloads.html hadoop 2.6.4 只需要留bin https://github.com/steveloughran/winutils 环境变量重启阅读全文

posted @ 2018-04-24 10:29 黎明程序员阅读(202) 评论(0) 推荐(0)

【Spark机器学习速成宝典】基础篇01Windows下spark开发环境搭建+sbt+idea（Scala版）

摘要：注意： spark用2.1.1 scala用2.11.11 材料准备 spark安装包 JDK 8 IDEA开发工具 scala 2.11.8 环境搭建步骤将spark-2.1.1-bin-hadoop2.x版本至c盘下即可将spark中的jar包全部提取出来另外放到一地方用于进行开发新建ID 阅读全文

posted @ 2018-02-22 19:49 黎明程序员阅读(365) 评论(0) 推荐(0)

【Spark机器学习速成宝典】推荐引擎——协同过滤

摘要：目录推荐模型的分类 ALS交替最小二乘算法：显式矩阵分解 Spark Python代码：显式矩阵分解 ALS交替最小二乘算法：隐式矩阵分解 Spark Python代码：隐式矩阵分解推荐模型的分类最为流行的两种方法是基于内容的过滤、协同过滤。基于内容的过滤：比如用户A买了商品A，商品B与商阅读全文

posted @ 2017-12-20 17:04 黎明程序员阅读(1729) 评论(0) 推荐(0)

【Spark机器学习速成宝典】基础篇01Windows下spark开发环境搭建（Scala版）

摘要：目录安装jdk 安装Scala IDE for Eclipse 配置Spark 配置Hadoop 创建Maven工程 Scala代码条目7 条目8 条目9 安装jdk 要求安装jdk1.8或以上版本。返回目录安装Scala IDE for Eclipse 无需额外安装scala，这个IDE里阅读全文

posted @ 2017-12-16 18:00 黎明程序员阅读(1475) 评论(0) 推荐(0)

【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版）

摘要：目录保序回归原理保序回归代码(Spark Python) 保序回归原理待续... 返回目录保序回归代码(Spark Python) 代码里数据：https://pan.baidu.com/s/1jHWKG4I 密码：acq1 返回目录阅读全文

posted @ 2017-12-12 20:44 黎明程序员阅读(1735) 评论(0) 推荐(0)

【Spark机器学习速成宝典】模型篇07梯度提升树【Gradient-Boosted Trees】（Python版）

摘要：目录梯度提升树原理梯度提升树代码(Spark Python) 梯度提升树原理待续... 返回目录梯度提升树代码(Spark Python) 代码里数据：https://pan.baidu.com/s/1jHWKG4I 密码：acq1 返回目录阅读全文

posted @ 2017-12-12 16:25 黎明程序员阅读(2085) 评论(1) 推荐(0)

【Spark机器学习速成宝典】模型篇06随机森林【Random Forests】（Python版）

摘要：目录随机森林原理随机森林代码(Spark Python) 随机森林原理参考：http://www.cnblogs.com/itmorn/p/8269334.html 返回目录随机森林代码(Spark Python) 代码里数据：https://pan.baidu.com/s/1jHWKG4I 阅读全文

posted @ 2017-12-12 16:10 黎明程序员阅读(2126) 评论(2) 推荐(0)

【Spark机器学习速成宝典】模型篇05决策树【Decision Tree】（Python版）

摘要：目录决策树原理决策树代码(Spark Python) 决策树原理详见博文：http://www.cnblogs.com/itmorn/p/7918797.html 返回目录决策树代码(Spark Python) 代码里数据：https://pan.baidu.com/s/1jHWKG4I 密阅读全文

posted @ 2017-12-11 20:54 黎明程序员阅读(1464) 评论(0) 推荐(0)

【Spark机器学习速成宝典】模型篇04朴素贝叶斯【Naive Bayes】（Python版）

摘要：目录朴素贝叶斯原理朴素贝叶斯代码(Spark Python) 朴素贝叶斯原理详见博文：http://www.cnblogs.com/itmorn/p/7905975.html 返回目录朴素贝叶斯代码(Spark Python) 代码里数据：https://pan.baidu.com/s/1j 阅读全文

posted @ 2017-12-11 16:24 黎明程序员阅读(1722) 评论(0) 推荐(0)

【Spark机器学习速成宝典】模型篇03线性回归【LR】（Python版）

摘要：目录线性回归原理线性回归代码(Spark Python) 线性回归原理详见博文：http://www.cnblogs.com/itmorn/p/7873083.html 返回目录线性回归代码(Spark Python) 代码里数据：https://pan.baidu.com/s/1jHWKG 阅读全文

posted @ 2017-12-11 15:43 黎明程序员阅读(1419) 评论(0) 推荐(0)

【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】（Python版）

摘要：目录 Logistic回归原理 Logistic回归代码(Spark Python) Logistic回归原理详见博文：http://www.cnblogs.com/itmorn/p/7890468.html 返回目录 Logistic回归代码(Spark Python) 代码里数据：https: 阅读全文

posted @ 2017-12-11 15:10 黎明程序员阅读(1035) 评论(0) 推荐(0)

【Spark机器学习速成宝典】模型篇01支持向量机【SVM】（Python版）

摘要：目录支持向量机原理支持向量机代码(Spark Python) 支持向量机原理详见博文：http://www.cnblogs.com/itmorn/p/8011587.html 返回目录支持向量机代码(Spark Python) 代码里数据：https://pan.baidu.com/s/1j 阅读全文

posted @ 2017-12-08 17:40 黎明程序员阅读(1915) 评论(0) 推荐(0)

【Spark机器学习速成宝典】基础篇04数据类型（Python版）

摘要：目录 Vector LabeledPoint Matrix 使用C4.5算法生成决策树使用CART算法生成决策树预剪枝和后剪枝应用：遇到连续与缺失值怎么办？多变量决策树 Python代码(sklearn库) Vector 一个数学向量。MLlib 既支持稠密向量也支持稀疏向量，前者表示向量的阅读全文

posted @ 2017-12-08 11:43 黎明程序员阅读(853) 评论(0) 推荐(0)

【Spark机器学习速成宝典】基础篇03数据读取与保存（Python版）

摘要：目录保存为文本文件：saveAsTextFile 保存为json：saveAsTextFile 保存为SequenceFile：saveAsSequenceFile 读取hive 保存为文本文件：saveAsTextFile 返回目录保存为json：saveAsTextFile 返回目录保存为阅读全文

posted @ 2017-12-07 15:01 黎明程序员阅读(1255) 评论(0) 推荐(1)

【Spark机器学习速成宝典】基础篇02RDD常见的操作（Python版）

摘要：目录引例入门：textFile、collect、filter、first、persist、count 创建RDD的方式：parallelize、textFile 转化操作：map、filter、flatMap、sample、union、intersection、subtract、cartesian 阅读全文

posted @ 2017-12-06 16:41 黎明程序员阅读(1603) 评论(1) 推荐(0)

【Spark机器学习速成宝典】基础篇01Windows下spark开发环境搭建（Python版）

摘要：目录安装jdk 安装eclipse 安装PyDev插件配置Spark 配置Hadoop Python代码配置Spark 下载Spark http://spark.apache.org/downloads.html 配置环境变量变量名：SPARK_HOME 变量值：D:\spark （不能有空阅读全文

posted @ 2017-12-01 16:12 黎明程序员阅读(1223) 评论(0) 推荐(1)

黎明程序员

随笔分类 - 0020.Spark机器学习

公告