07 2020 档案

摘要:下载地址:https://www.anaconda.com/products/individual ,需要注册用户 配置安装bzip2 yum -y install bzip2 1、bash Anaconda3-2020.07-Linux-x86_64.sh 2、回车通过 3、配置环境变量 expo 阅读全文
posted @ 2020-07-31 17:42 Wind_LPH 阅读(397) 评论(0) 推荐(0) 编辑
摘要:Spark的体系结构如下图。基本认知入门。 数据接口访问层是第一层绿色部分,包含Spark Streming、Spark SQL、MLIB和GraphX。 数据核心处理是第二层橙色,主要包含Spark Core。 数据的存储集中在第三层天蓝色,以HDFS、Hive、S3等为主。 任务调度则集中在第四 阅读全文
posted @ 2020-07-31 09:38 Wind_LPH 阅读(445) 评论(0) 推荐(0) 编辑
摘要:目录: 1、DF的创建 2、临时表 3、SQL查询 4、RDD到DF的转换 5、DF的API 简介 DataFrame是一种不可变的分布式数据集,数据被组织成指定的列。和数据库中的表类似。 以下的spark变量均由SparkSession创建。 1、DataFrame的创建 jsonDf = spa 阅读全文
posted @ 2020-07-30 22:33 Wind_LPH 阅读(440) 评论(0) 推荐(0) 编辑
摘要:RDD不仅是分布式的数据集合,更是Spark的核心。 RDD会跟踪应用每个块的所有转换(日志),也就是说,当RDD的某个分区数据丢失时会根据日志进行重新计算。 RDD是无Schema的数据结构。 1、RDD的生成 RDD的生成有三种方式, 1) .parallelize() 集合生成 2)外部文件或 阅读全文
posted @ 2020-07-28 22:26 Wind_LPH 阅读(209) 评论(0) 推荐(0) 编辑
摘要:Spark的架构图 1、RDD(弹性分布式数据集) RDD是对象的分布式集合。 RDD以并行方式应用和记录数据转换 RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树,当RDD的一个分区丢失,可以根据祖先树重建该分区。 RDD有两组操作,转换(transformation)和行动(actio 阅读全文
posted @ 2020-07-28 21:19 Wind_LPH 阅读(173) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示