随笔分类 -  Spark

摘要:1. 查 1.1 行元素查询操作 像SQL那样打印列表前20元素,show函数内可用int类型指定要打印的行数: df.show() df.show(30) 以树的形式打印概要: df.printSchema() 获取头几行到本地: list = df.head(3) # Example: [Row 阅读全文
posted @ 2019-12-29 17:52 耐烦不急 阅读(3122) 评论(0) 推荐(2) 编辑
摘要:监督学习 监督学习 监督学习 监督学习 0.线性回归(加L1、L2正则化) from __future__ import print_function from pyspark.ml.regression import LinearRegression from pyspark.sql import 阅读全文
posted @ 2019-10-08 14:20 耐烦不急 阅读(1423) 评论(0) 推荐(0) 编辑
摘要:0.K-means 结果: 结果: 2.GMM模型 结果: Gaussians shown as a DataFrame: + + + |mean |cov | + + + |[9.099999999999985,9.099999999999985,9.099999999999985] |0.006 阅读全文
posted @ 2019-09-23 17:29 耐烦不急 阅读(775) 评论(0) 推荐(0) 编辑
摘要:对连续值处理 0.binarizer/二值化 结果: 1.按照给定边界离散化 结果: 2.quantile_discretizer/按分位数离散化 结果: 3.最大最小值幅度缩放 结果: 4.标准化 结果: 5.添加多项式特征 结果: 对离散型处理 对离散型处理 对离散型处理 对离散型处理 0.独热 阅读全文
posted @ 2019-09-22 15:53 耐烦不急 阅读(976) 评论(0) 推荐(0) 编辑
摘要:一、工具准备 1. jdk1.8 2. scala 3. anaconda3 4. spark-2.3.1-bin-hadoop2.7 5. hadoop-2.8.3 6. winutils 7. pycharm 二、安装 1. jdk安装 oracle官网下载,安装后配置JAVA_HOME、CLA 阅读全文
posted @ 2019-07-30 18:08 耐烦不急 阅读(1859) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示