摘要: 一、DataFrame 1、创建 https://www.cnblogs.com/frankdeng/p/9301743.html DataFrame创建方式应该按照数据源进行划分,数据源是:普通的txt文件、json/parquet文件、mysql数据库、hive数据仓库 1、普通txt文件: ( 阅读全文
posted @ 2019-12-24 16:47 guoyu1 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 一、Hive建表语句 (1)创建内部表 (2)创建外部表 drop table yum_area_dw.dw_community_base_info_aoi_clean; CREATE EXTERNAL TABLE `yum_area_dw.dw_community_base_info_aoi_cl 阅读全文
posted @ 2019-12-24 14:59 guoyu1 阅读(1608) 评论(0) 推荐(0) 编辑
摘要: 1、List 列表:列表长度和内容均不可变,所有元素的类型相同,值一旦被定义了就不能改变,即不可被赋值改变,底层是链表结构。 scala list 有三个基本操作,head 返回列表第一个元素,tail 返回一个列表,包含除了第一元素之外的其他元素,isEmpty 在列表为空时返回true。 注意: 阅读全文
posted @ 2019-12-24 14:25 guoyu1 阅读(1566) 评论(0) 推荐(0) 编辑
摘要: 1、RDD概念: RDD 叫做 弹性分布式数据集,是spark中最基本的数据抽象。代表着一个可分区、元素可并行计算、不可变的数据集合。 RDD特点:自动容错、位置感知性调度、可伸缩性,允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。 2、RDD原 阅读全文
posted @ 2019-12-24 14:05 guoyu1 阅读(1018) 评论(0) 推荐(0) 编辑
摘要: 一、reduceByKey和groupByKey的区别 1、reduceByKey:按照 key进行聚合,在 shuffle 之前有 combine(预聚合)操作,返回结果是 RDD[k,v]。 2、groupByKey:按照 key进行分组,直接进行 shuffle。开发指导:reduceByKe 阅读全文
posted @ 2019-12-24 11:14 guoyu1 阅读(881) 评论(0) 推荐(0) 编辑
摘要: DStream基本工作原理: DStream是Spark Streaming提供的一种高级抽象,英文全称为Discretized Stream,中文翻译为离散流,它代表了一个持续不断的数据流。DStream可以通过输入数据源(比如从Flume、Kafka中)来创建,也可以通过对其他DStream应用 阅读全文
posted @ 2019-12-24 10:41 guoyu1 阅读(540) 评论(0) 推荐(0) 编辑