2019 年 12月 24 日随笔档案 - guoyu1

2019年12月24日

摘要：一、DataFrame 1、创建 https://www.cnblogs.com/frankdeng/p/9301743.html DataFrame创建方式应该按照数据源进行划分，数据源是：普通的txt文件、json/parquet文件、mysql数据库、hive数据仓库 1、普通txt文件：（阅读全文

posted @ 2019-12-24 16:47 guoyu1 阅读(411) 评论(0) 推荐(0) 编辑

Hive建表

摘要：一、Hive建表语句（1）创建内部表（2）创建外部表 drop table yum_area_dw.dw_community_base_info_aoi_clean; CREATE EXTERNAL TABLE `yum_area_dw.dw_community_base_info_aoi_cl 阅读全文

posted @ 2019-12-24 14:59 guoyu1 阅读(1637) 评论(0) 推荐(0) 编辑

scala的List、Array、ListBuffer、ArrayList、Set、元组区别区别

摘要： 1、List 列表：列表长度和内容均不可变,所有元素的类型相同，值一旦被定义了就不能改变，即不可被赋值改变，底层是链表结构。 scala list 有三个基本操作，head 返回列表第一个元素，tail 返回一个列表，包含除了第一元素之外的其他元素，isEmpty 在列表为空时返回true。注意：阅读全文

posted @ 2019-12-24 14:25 guoyu1 阅读(1632) 评论(0) 推荐(0) 编辑

RDD

摘要： 1、RDD概念： RDD 叫做弹性分布式数据集，是spark中最基本的数据抽象。代表着一个可分区、元素可并行计算、不可变的数据集合。 RDD特点：自动容错、位置感知性调度、可伸缩性，允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。 2、RDD原阅读全文

posted @ 2019-12-24 14:05 guoyu1 阅读(1059) 评论(0) 推荐(0) 编辑

spark常见算子的区别

摘要：一、reduceByKey和groupByKey的区别 1、reduceByKey：按照 key进行聚合，在 shuffle 之前有 combine（预聚合）操作，返回结果是 RDD[k,v]。 2、groupByKey：按照 key进行分组，直接进行 shuffle。开发指导：reduceByKe 阅读全文

posted @ 2019-12-24 11:14 guoyu1 阅读(904) 评论(0) 推荐(0) 编辑

Dstream

摘要： DStream基本工作原理： DStream是Spark Streaming提供的一种高级抽象，英文全称为Discretized Stream，中文翻译为离散流，它代表了一个持续不断的数据流。DStream可以通过输入数据源（比如从Flume、Kafka中）来创建，也可以通过对其他DStream应用阅读全文

posted @ 2019-12-24 10:41 guoyu1 阅读(560) 评论(0) 推荐(0) 编辑

打怪up

公告