spark - 随笔分类 - Wind_LPH

云集群本地访问

摘要：当集群部署在阿里云或者腾讯云或者其他云上的时候，使用本地客户端访问会出现问题，解析的时候是内网地址，需要使用如下参数进行转换。增加配置hdfs-site.xml 1 <configuration> 2 <property> 3 <name>dfs.client.use.datanode.hostn 阅读全文

posted @ 2021-08-17 09:22 Wind_LPH 阅读(35) 评论(0) 推荐(0) 编辑

spark-sql与Hive元数据共享

摘要：版本：ambari2.7.5 HDP3.1.5 hive 3.1.0 spark 2.3.0 配置spark-sql命令行方式处理Hive数据。参考：https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.5/integrating-hive/con 阅读全文

posted @ 2021-01-01 17:04 Wind_LPH 阅读(471) 评论(0) 推荐(0) 编辑

spark-二次排序

摘要：排序文件： 3,25,25,35,96,29,19,38,4方法一： 1 package spark.rdd 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 cla 阅读全文

posted @ 2020-12-26 21:19 Wind_LPH 阅读(441) 评论(0) 推荐(0) 编辑

Spark系列之工具Jupyter

摘要：下载地址：https://www.anaconda.com/products/individual ，需要注册用户配置安装bzip2 yum -y install bzip2 1、bash Anaconda3-2020.07-Linux-x86_64.sh 2、回车通过 3、配置环境变量 expo 阅读全文

posted @ 2020-07-31 17:42 Wind_LPH 阅读(397) 评论(0) 推荐(0) 编辑

Spark系列之体系结构

摘要：Spark的体系结构如下图。基本认知入门。数据接口访问层是第一层绿色部分，包含Spark Streming、Spark SQL、MLIB和GraphX。数据核心处理是第二层橙色，主要包含Spark Core。数据的存储集中在第三层天蓝色，以HDFS、Hive、S3等为主。任务调度则集中在第四阅读全文

posted @ 2020-07-31 09:38 Wind_LPH 阅读(445) 评论(0) 推荐(0) 编辑

Spark系列之分布式数据集-DataFrame

摘要：目录： 1、DF的创建 2、临时表 3、SQL查询 4、RDD到DF的转换 5、DF的API 简介 DataFrame是一种不可变的分布式数据集，数据被组织成指定的列。和数据库中的表类似。以下的spark变量均由SparkSession创建。 1、DataFrame的创建 jsonDf = spa 阅读全文

posted @ 2020-07-30 22:33 Wind_LPH 阅读(440) 评论(0) 推荐(0) 编辑

Spark系列之弹性数据集-RDD

摘要：RDD不仅是分布式的数据集合，更是Spark的核心。 RDD会跟踪应用每个块的所有转换(日志)，也就是说，当RDD的某个分区数据丢失时会根据日志进行重新计算。 RDD是无Schema的数据结构。 1、RDD的生成 RDD的生成有三种方式， 1) .parallelize() 集合生成 2）外部文件或阅读全文

posted @ 2020-07-28 22:26 Wind_LPH 阅读(209) 评论(0) 推荐(0) 编辑

spark系列之基本概念

摘要：Spark的架构图 1、RDD(弹性分布式数据集) RDD是对象的分布式集合。 RDD以并行方式应用和记录数据转换 RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。 RDD有两组操作，转换(transformation)和行动(actio 阅读全文

posted @ 2020-07-28 21:19 Wind_LPH 阅读(173) 评论(0) 推荐(0) 编辑

Spark未序列化问题(Task not Serialize)

摘要：spark未序列化问题虽然不难，但资料却不系统，现总结如下：问题发生原因当spark算子在使用外部变量时，就会发生序列化问题，如下图所示：上述图中算子map会在各个节点运行，属于不同jvm间数据交换，需要对交换的内容进行序列化。这就是为什么需要序列化的原因。方法 1）序列化类，并使用bro 阅读全文

posted @ 2019-08-02 15:12 Wind_LPH 阅读(1943) 评论(5) 推荐(0) 编辑

spark通过jdbc读取数据库的并行

摘要：代码如下： val conf = new SparkConf().setAppName("testMysqlToHiveJdbc") .setMaster("local") val spark = SparkSession.builder() .config(conf) .enableHiveSup 阅读全文

posted @ 2019-06-16 18:20 Wind_LPH 阅读(2735) 评论(0) 推荐(0) 编辑

Wind_LPH

凡所向往，皆是虚妄

随笔分类 - spark

公告