随笔分类 - 0020.Spark机器学习
摘要:jdk1.7 scala 2.10.5 spark 1.6.1 http://spark.apache.org/downloads.html hadoop 2.6.4 只需要留bin https://github.com/steveloughran/winutils 环境变量 重启
阅读全文
摘要:注意: spark用2.1.1 scala用2.11.11 材料准备 spark安装包 JDK 8 IDEA开发工具 scala 2.11.8 环境搭建步骤 将spark-2.1.1-bin-hadoop2.x版本至c盘下即可 将spark中的jar包全部提取出来另外放到一地方用于进行开发 新建ID
阅读全文
摘要:目录 推荐模型的分类 ALS交替最小二乘算法:显式矩阵分解 Spark Python代码:显式矩阵分解 ALS交替最小二乘算法:隐式矩阵分解 Spark Python代码:隐式矩阵分解 推荐模型的分类 最为流行的两种方法是基于内容的过滤、协同过滤。 基于内容的过滤: 比如用户A买了商品A,商品B与商
阅读全文
摘要:目录 安装jdk 安装Scala IDE for Eclipse 配置Spark 配置Hadoop 创建Maven工程 Scala代码 条目7 条目8 条目9 安装jdk 要求安装jdk1.8或以上版本。 返回目录 安装Scala IDE for Eclipse 无需额外安装scala,这个IDE里
阅读全文
摘要:目录 保序回归原理 保序回归代码(Spark Python) 保序回归原理 待续... 返回目录 保序回归代码(Spark Python) 代码里数据:https://pan.baidu.com/s/1jHWKG4I 密码:acq1 返回目录
阅读全文
摘要:目录 梯度提升树原理 梯度提升树代码(Spark Python) 梯度提升树原理 待续... 返回目录 梯度提升树代码(Spark Python) 代码里数据:https://pan.baidu.com/s/1jHWKG4I 密码:acq1 返回目录
阅读全文
摘要:目录 随机森林原理 随机森林代码(Spark Python) 随机森林原理 参考:http://www.cnblogs.com/itmorn/p/8269334.html 返回目录 随机森林代码(Spark Python) 代码里数据:https://pan.baidu.com/s/1jHWKG4I
阅读全文
摘要:目录 决策树原理 决策树代码(Spark Python) 决策树原理 详见博文:http://www.cnblogs.com/itmorn/p/7918797.html 返回目录 决策树代码(Spark Python) 代码里数据:https://pan.baidu.com/s/1jHWKG4I 密
阅读全文
摘要:目录 朴素贝叶斯原理 朴素贝叶斯代码(Spark Python) 朴素贝叶斯原理 详见博文:http://www.cnblogs.com/itmorn/p/7905975.html 返回目录 朴素贝叶斯代码(Spark Python) 代码里数据:https://pan.baidu.com/s/1j
阅读全文
摘要:目录 线性回归原理 线性回归代码(Spark Python) 线性回归原理 详见博文:http://www.cnblogs.com/itmorn/p/7873083.html 返回目录 线性回归代码(Spark Python) 代码里数据:https://pan.baidu.com/s/1jHWKG
阅读全文
摘要:目录 Logistic回归原理 Logistic回归代码(Spark Python) Logistic回归原理 详见博文:http://www.cnblogs.com/itmorn/p/7890468.html 返回目录 Logistic回归代码(Spark Python) 代码里数据:https:
阅读全文
摘要:目录 支持向量机原理 支持向量机代码(Spark Python) 支持向量机原理 详见博文:http://www.cnblogs.com/itmorn/p/8011587.html 返回目录 支持向量机代码(Spark Python) 代码里数据:https://pan.baidu.com/s/1j
阅读全文
摘要:目录 Vector LabeledPoint Matrix 使用C4.5算法生成决策树 使用CART算法生成决策树 预剪枝和后剪枝 应用:遇到连续与缺失值怎么办? 多变量决策树 Python代码(sklearn库) Vector 一个数学向量。MLlib 既支持稠密向量也支持稀疏向量,前者表示向量的
阅读全文
摘要:目录 保存为文本文件:saveAsTextFile 保存为json:saveAsTextFile 保存为SequenceFile:saveAsSequenceFile 读取hive 保存为文本文件:saveAsTextFile 返回目录 保存为json:saveAsTextFile 返回目录 保存为
阅读全文
摘要:目录 引例入门:textFile、collect、filter、first、persist、count 创建RDD的方式:parallelize、textFile 转化操作:map、filter、flatMap、sample、union、intersection、subtract、cartesian
阅读全文
摘要:目录 安装jdk 安装eclipse 安装PyDev插件 配置Spark 配置Hadoop Python代码 配置Spark 下载Spark http://spark.apache.org/downloads.html 配置环境变量 变量名:SPARK_HOME 变量值:D:\spark (不能有空
阅读全文