spark - 随笔分类 - 是阿凯啊

sparkstreaming用redis管理偏移量

摘要：sparkstreaming用redis管理偏移量 RedisUtils.scala import java.io.FileInputStream import java.util.Properties import redis.clients.jedis.{Jedis, JedisPool, 阅读全文

posted @ 2021-08-09 10:57 是阿凯啊阅读(142) 评论(0) 推荐(0) 编辑

sparkstreaming在yarn运行

摘要：sparkstreaming在yarn运行 idea Maven->Lifecycle->package 将jar包传入服务器执行spark-submit命令提交yarn spark-submit \ --class cn.ruige.data.genderalStat.gemeralStat.H 阅读全文

posted @ 2021-08-08 23:42 是阿凯啊阅读(203) 评论(0) 推荐(0) 编辑

sparkSQL-03

摘要：1、前序 sparkSQL-2 2、spark程序的序列化 2.1 spark程序序列化描述对于分布式计算来说，数据后期先需要进行序列化，然后发送给对应的其他计算节点，然后反序列化获取对象数据，最后进行任务执行。 2.2 程序序列化流程 1、在Driver端先把对象数据进行序列化 2、然后把序列化阅读全文

posted @ 2021-07-13 17:38 是阿凯啊阅读(74) 评论(0) 推荐(0) 编辑

sparkSQL-2

摘要：SparkSQL-2 1.前言 sparksql-1 2、JDBC数据源 sparksql可以从mysql表中加载大量的数据，然后进行相应的统计分析查询，也可以把最后得到的结果数据写回到mysql表 2.1 通过sparksql加载mysql表中的数据代码开发 package cn.doit.sp 阅读全文

posted @ 2021-07-13 17:29 是阿凯啊阅读(97) 评论(0) 推荐(0) 编辑

sparkSQL-1

摘要：spark SQL 1.sparksql由来 shark是专门针对于spark构建大规模数据仓库系统的一个框架。它依赖于Hive，同时兼容spark。hivesql底层是把sql解析成mapreduce程序，shark（sql解析引擎）是把sql后期解析成了spark任务。后期由于程序对性能要求比阅读全文

posted @ 2021-07-05 20:24 是阿凯啊阅读(98) 评论(0) 推荐(0) 编辑

spark运行模式介绍

摘要：spark 运行模式 0.spark-submit提交参数说明 --master MASTER_URL spark://host:port, mesos://host:port, yarn, or local. --deploy-mode DEPLOY_MODE driver运行之处，client运阅读全文

posted @ 2021-06-23 15:22 是阿凯啊阅读(189) 评论(0) 推荐(0) 编辑

spark+hadoop错误相关记录

摘要：spark+hadoop错误相关记录：错误1：java.lang.Exception: Unknown container. Container either has not started ...Yarn 在我通过运行spark提交yarn任务，在hadoop平台查看日志报错java.lang. 阅读全文

posted @ 2021-06-23 13:46 是阿凯啊阅读(352) 评论(0) 推荐(0) 编辑

spark内存分配

摘要：1.spark内存分配 MemoryManager |__StaticMemoryManager 静态内存管理机制 |__UnifiedMemoryManger 统一内存管理机制 1.静态内存管理机制静态内存管理机制实现起来较为简单，但没有根据具体的数据规模和计算任务做相应的配置，很容易造成"一半阅读全文

posted @ 2021-06-23 11:30 是阿凯啊阅读(308) 评论(0) 推荐(0) 编辑

spark自定义分区

摘要：Spark分区 1分区：自定义分区在对RDD数据进行分区时，默认使用的是 HashPartitioner，该partitioner对key进行哈希，然后mod 上分区数目，mod的结果相同的就会被分到同一个partition中如果嫌HashPartitioner 功能单一，可以自定义partiti 阅读全文

posted @ 2021-06-23 09:44 是阿凯啊阅读(567) 评论(0) 推荐(0) 编辑

spark-RDD缓存,checkpoint机制,有向无环图,stage

摘要：spark-RDD缓存,checkpoint机制,有向无环图,stage 1.RDD依赖关系 RDD依赖关系有2种不同类型，窄依赖和宽依赖。窄依赖(narrow dependency)：是指每个父RDD的Partition最多被子RDD一个Partition使用。就好像独生子女一样。窄依赖的算子包阅读全文

posted @ 2021-06-22 17:20 是阿凯啊阅读(366) 评论(0) 推荐(0) 编辑

spark广播变量

摘要：Spark-广播变量当我们产生了几百个或是几千个task这些task后期都需要使用到一份共同的数据，假如这个数据量有1G,这些task后期运行完成需要内存开销几百或几千乘以1g,内存开销还是特别大的，特别浪费资源。而spark提供一个叫数据共享机制广播变量。可以把共同数据从Driver段下发到每阅读全文

posted @ 2021-06-21 23:08 是阿凯啊阅读(466) 评论(0) 推荐(0) 编辑

k8s部署spark

摘要：1.镜像构建打包推送阿里镜像： DockerFile构建： FROM java:openjdk-8-jdk ENV hadoop_ver 2.8.2 ENV spark_ver 2.4.4 RUN mkdir -p /opt ADD hadoop-${hadoop_ver}.tar.gz /opt/ 阅读全文

posted @ 2021-06-18 17:18 是阿凯啊阅读(1173) 评论(0) 推荐(0) 编辑

spark简单安装

摘要：spark搭建继续使用上次搭建hadoop scala安装:https://downloads.lightbend.com/scala/2.12.12/scala-2.12.12.tgz # 解压 tar -zxvf scala-2.12.12.tgz # 配置环境变量 vi /etc/profi 阅读全文

posted @ 2021-06-18 11:34 是阿凯啊阅读(172) 评论(0) 推荐(0) 编辑

spark之单词统计

摘要：spark之单词统计 1.Java语言开发单词统计 package com.wordCountdemo2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apac 阅读全文

posted @ 2021-03-10 23:53 是阿凯啊阅读(528) 评论(0) 推荐(0) 编辑

spark从入门开始01

摘要：spark从入门开始01-介绍、集群安装 1.开始：spark是什么？什么是spark?Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spar 阅读全文

posted @ 2021-03-10 23:52 是阿凯啊阅读(96) 评论(0) 推荐(0) 编辑

阿凯

随笔分类 - spark

公告