随笔分类 - Spark
摘要:1. 查 1.1 行元素查询操作 像SQL那样打印列表前20元素,show函数内可用int类型指定要打印的行数: df.show() df.show(30) 以树的形式打印概要: df.printSchema() 获取头几行到本地: list = df.head(3) # Example: [Row
阅读全文
摘要:监督学习 监督学习 监督学习 监督学习 0.线性回归(加L1、L2正则化) from __future__ import print_function from pyspark.ml.regression import LinearRegression from pyspark.sql import
阅读全文
摘要:0.K-means 结果: 结果: 2.GMM模型 结果: Gaussians shown as a DataFrame: + + + |mean |cov | + + + |[9.099999999999985,9.099999999999985,9.099999999999985] |0.006
阅读全文
摘要:对连续值处理 0.binarizer/二值化 结果: 1.按照给定边界离散化 结果: 2.quantile_discretizer/按分位数离散化 结果: 3.最大最小值幅度缩放 结果: 4.标准化 结果: 5.添加多项式特征 结果: 对离散型处理 对离散型处理 对离散型处理 对离散型处理 0.独热
阅读全文
摘要:一、工具准备 1. jdk1.8 2. scala 3. anaconda3 4. spark-2.3.1-bin-hadoop2.7 5. hadoop-2.8.3 6. winutils 7. pycharm 二、安装 1. jdk安装 oracle官网下载,安装后配置JAVA_HOME、CLA
阅读全文