Spark - 随笔分类 - 静悟生慧

pyspark GBTRegressor 特征重要度及排序

摘要：GBTRegressor 模型评估指标和特征重要度分析官方文档：https://spark.apache.org/docs/2.2.0/api/python/_modules/pyspark/ml/regression.html 和随机森林类似，训练好model 可用如下代码打印特征以及重要度排序阅读全文

posted @ 2020-07-28 11:20 静悟生慧阅读(1512) 评论(0) 推荐(0)

SparkSQL执行时参数优化

摘要：具体现象内存CPU比例失调一个Spark任务消耗 120(executor)*4G = 480G内存仅仅使用120个 core.几个SprakSQL任务就将整个系统资源吃光. 设置超过40个executor,但未指定分区数,导致多数executor空闲. 原因分析 SparkSQL配置时Core 阅读全文

posted @ 2020-05-22 15:50 静悟生慧阅读(5684) 评论(1) 推荐(1)

spark UI 界面解释及数据倾斜处理办法

摘要：spark UI 界面：http://blog.csdn.net/u013013024/article/details/73498508几个概念的解释：http://blog.csdn.net/jiangwlee/article/details/50774561 数据倾斜处理： https://bl 阅读全文

posted @ 2020-05-06 14:38 静悟生慧阅读(1260) 评论(0) 推荐(0)

PySpark SQL 基本操作

摘要：记录备忘：转自： https://www.jianshu.com/p/177cbcb1cb6f 数据拉取加载包： from __future__ import print_function import pandas as pd from pyspark.sql import HiveConte 阅读全文

posted @ 2020-04-13 20:14 静悟生慧阅读(3854) 评论(0) 推荐(0)

JAVA SparkSQL初始和创建DataFrame的几种方式

摘要：建议参考SparkSQL官方文档：http://spark.apache.org/docs/latest/sql-programming-guide.html 一、前述 1、SparkSQL介绍 Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱阅读全文

posted @ 2019-08-19 10:44 静悟生慧阅读(6887) 评论(0) 推荐(0)

JAVA RDD 介绍

摘要：RDD 介绍 RDD，全称Resilient Distributed Datasets（弹性分布式数据集），是Spark最为核心的概念，是Spark对数据的抽象。 RDD是分布式的元素集合，每个RDD只支持读操作，且每个RDD都被分为多个分区存储到集群的不同节点上。除此之外，RDD还允许用户显示的指阅读全文

posted @ 2019-08-16 22:03 静悟生慧阅读(1215) 评论(0) 推荐(0)

RDD java API使用

摘要：1.RDD介绍： RDD，弹性分布式数据集，即分布式的元素集合。在spark中，对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后，Spark会自动将RDD中的数据分发到集群中，并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RD 阅读全文

posted @ 2019-08-16 20:21 静悟生慧阅读(1424) 评论(0) 推荐(0)

java spark list 转为 RDD 转为 dataset 写入表中

摘要：package com.example.demo; import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.List; import java.util.Map; import org.apache.spark.api.java.JavaRDD; import o 阅读全文

posted @ 2019-08-16 17:00 静悟生慧阅读(9348) 评论(0) 推荐(0)

SparkConf和SparkContext

摘要：任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数。初始化后，就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。 Scala： val conf 阅读全文

posted @ 2019-08-16 16:19 静悟生慧阅读(16766) 评论(0) 推荐(2)

spark-submit 参数总结

摘要：spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行。 1）./spark-shell --help ：不知道如何使用，可通过它查看命令帮助，[]中括号里面的表示可选的。 2）重要参数讲解： --master master 的地址，提交任阅读全文

posted @ 2019-06-03 18:13 静悟生慧阅读(3560) 评论(0) 推荐(0)

hive Spark SQL分析窗口函数

摘要：Spark1.4发布，支持了窗口分析函数(window functions)。在离线平台中，90%以上的离线分析任务都是使用Hive实现，其中必然会使用很多窗口分析函数，如果SparkSQL支持窗口分析函数，那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低，使用方式如下： 1、初始化阅读全文

posted @ 2019-04-23 20:40 静悟生慧阅读(1201) 评论(0) 推荐(0)

Spark2.3 HA集群的分布式安装

摘要：一、下载Spark安装包 1、从官网下载 http://spark.apache.org/downloads.html 2、从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3、从清华的镜像站下载 https://mirrors.tuna.tsinghua.e 阅读全文

posted @ 2019-04-03 15:09 静悟生慧阅读(327) 评论(0) 推荐(0)

Spark初识

摘要：一、简介 1、什么是Spark 官网地址：http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用阅读全文

posted @ 2019-04-03 14:59 静悟生慧阅读(379) 评论(0) 推荐(0)

静悟生慧

随笔分类 - Spark

公告