随笔分类 -  Spark

摘要:GBTRegressor 模型评估指标和特征重要度分析 官方文档:https://spark.apache.org/docs/2.2.0/api/python/_modules/pyspark/ml/regression.html 和随机森林类似,训练好model 可用如下代码打印特征以及重要度排序 阅读全文
posted @ 2020-07-28 11:20 静悟生慧 阅读(1457) 评论(0) 推荐(0) 编辑
摘要:具体现象 内存CPU比例失调 一个Spark任务消耗 120(executor)*4G = 480G内存仅仅使用120个 core.几个SprakSQL任务就将整个系统资源吃光. 设置超过40个executor,但未指定分区数,导致多数executor空闲. 原因分析 SparkSQL配置时Core 阅读全文
posted @ 2020-05-22 15:50 静悟生慧 阅读(5476) 评论(1) 推荐(1) 编辑
摘要:spark UI 界面:http://blog.csdn.net/u013013024/article/details/73498508几个概念的解释:http://blog.csdn.net/jiangwlee/article/details/50774561 数据倾斜处理: https://bl 阅读全文
posted @ 2020-05-06 14:38 静悟生慧 阅读(1200) 评论(0) 推荐(0) 编辑
摘要:记录备忘: 转自: https://www.jianshu.com/p/177cbcb1cb6f 数据拉取 加载包: from __future__ import print_function import pandas as pd from pyspark.sql import HiveConte 阅读全文
posted @ 2020-04-13 20:14 静悟生慧 阅读(3813) 评论(0) 推荐(0) 编辑
摘要:建议参考SparkSQL官方文档:http://spark.apache.org/docs/latest/sql-programming-guide.html 一、前述 1、SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱 阅读全文
posted @ 2019-08-19 10:44 静悟生慧 阅读(6748) 评论(0) 推荐(0) 编辑
摘要:RDD 介绍 RDD,全称Resilient Distributed Datasets(弹性分布式数据集),是Spark最为核心的概念,是Spark对数据的抽象。 RDD是分布式的元素集合,每个RDD只支持读操作,且每个RDD都被分为多个分区存储到集群的不同节点上。除此之外,RDD还允许用户显示的指 阅读全文
posted @ 2019-08-16 22:03 静悟生慧 阅读(1164) 评论(0) 推荐(0) 编辑
摘要:1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合。在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RD 阅读全文
posted @ 2019-08-16 20:21 静悟生慧 阅读(1382) 评论(0) 推荐(0) 编辑
摘要:package com.example.demo; import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.List; import java.util.Map; import org.apache.spark.api.java.JavaRDD; import o 阅读全文
posted @ 2019-08-16 17:00 静悟生慧 阅读(9298) 评论(0) 推荐(0) 编辑
摘要:任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。 初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。 Scala: val conf 阅读全文
posted @ 2019-08-16 16:19 静悟生慧 阅读(16662) 评论(0) 推荐(2) 编辑
摘要:spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。 1)./spark-shell --help :不知道如何使用,可通过它查看命令帮助,[]中括号里面的表示可选的。 2)重要参数讲解: --master master 的地址,提交任 阅读全文
posted @ 2019-06-03 18:13 静悟生慧 阅读(3503) 评论(0) 推荐(0) 编辑
摘要:Spark1.4发布,支持了窗口分析函数(window functions)。在离线平台中,90%以上的离线分析任务都是使用Hive实现,其中必然会使用很多窗口分析函数,如果SparkSQL支持窗口分析函数,那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低,使用方式如下: 1、初始化 阅读全文
posted @ 2019-04-23 20:40 静悟生慧 阅读(1142) 评论(0) 推荐(0) 编辑
摘要:一、下载Spark安装包 1、从官网下载 http://spark.apache.org/downloads.html 2、从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 3、从清华的镜像站下载 https://mirrors.tuna.tsinghua.e 阅读全文
posted @ 2019-04-03 15:09 静悟生慧 阅读(313) 评论(0) 推荐(0) 编辑
摘要:一、简介 1、什么是Spark 官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用 阅读全文
posted @ 2019-04-03 14:59 静悟生慧 阅读(367) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示