Spark - 随笔分类 - 耐烦不急

pyspark基础知识点

摘要：1. 查 1.1 行元素查询操作像SQL那样打印列表前20元素，show函数内可用int类型指定要打印的行数： df.show() df.show(30) 以树的形式打印概要： df.printSchema() 获取头几行到本地： list = df.head(3) # Example: [Row 阅读全文

posted @ 2019-12-29 17:52 耐烦不急阅读(3122) 评论(0) 推荐(2) 编辑

Spark机器学习基础-监督学习

摘要：监督学习监督学习监督学习监督学习 0.线性回归（加L1、L2正则化） from __future__ import print_function from pyspark.ml.regression import LinearRegression from pyspark.sql import 阅读全文

posted @ 2019-10-08 14:20 耐烦不急阅读(1423) 评论(0) 推荐(0) 编辑

Spark机器学习基础-无监督学习

摘要：0.K-means 结果：结果： 2.GMM模型结果： Gaussians shown as a DataFrame: + + + |mean |cov | + + + |[9.099999999999985,9.099999999999985,9.099999999999985] |0.006 阅读全文

posted @ 2019-09-23 17:29 耐烦不急阅读(775) 评论(0) 推荐(0) 编辑

Spark机器学习基础-特征工程

摘要：对连续值处理 0.binarizer/二值化结果： 1.按照给定边界离散化结果： 2.quantile_discretizer/按分位数离散化结果： 3.最大最小值幅度缩放结果： 4.标准化结果： 5.添加多项式特征结果：对离散型处理对离散型处理对离散型处理对离散型处理 0.独热阅读全文

posted @ 2019-09-22 15:53 耐烦不急阅读(976) 评论(0) 推荐(0) 编辑

win10+pyspark+pycharm+anaconda单机环境搭建

摘要：一、工具准备 1. jdk1.8 2. scala 3. anaconda3 4. spark-2.3.1-bin-hadoop2.7 5. hadoop-2.8.3 6. winutils 7. pycharm 二、安装 1. jdk安装 oracle官网下载，安装后配置JAVA_HOME、CLA 阅读全文

posted @ 2019-07-30 18:08 耐烦不急阅读(1859) 评论(0) 推荐(0) 编辑

随笔分类 - Spark

公告

搜索

随笔分类 (471)

阅读排行榜

最新评论