上一页 1 2 3 4 5 6 7 ··· 12 下一页
摘要: 前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} obje 阅读全文
posted @ 2021-02-12 21:49 Hoult丶吴邪 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划阶段,Spark 的 Join Selection 类会根 据 Join hints 策略、Join 表的大小、 Join 是等值 Join 还是不等值以及参与 Join 的 key 是否可以排序等条件来选择最 终的 阅读全文
posted @ 2021-02-09 11:41 Hoult丶吴邪 阅读(1315) 评论(0) 推荐(1) 编辑
摘要: 1.Spark Graph简介 GraphX 是 Spark 一个组件,专门用来表示图以及进行图的并行计算。GraphX 通过重新定义了图的抽象概念来拓展了 RDD: 定向多图,其属性附加到每个顶点和边。为了支持图计算, GraphX 公开了一系列基本运算符(比如:mapVertices、mapEd 阅读全文
posted @ 2021-02-08 16:47 Hoult丶吴邪 阅读(586) 评论(0) 推荐(0) 编辑
摘要: 1.Spark Streaming简介 Spark Streaming从各种输入源中读取数据,并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候,一个新的批次就创建出来,在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时,批次停止增长,时间区间的大小是由批次 阅读全文
posted @ 2021-02-08 12:14 Hoult丶吴邪 阅读(1274) 评论(0) 推荐(0) 编辑
摘要: 在前面一篇里面,算法-一个经典sql 题和一个Java算法题 大数据开发-Hive-常用日期函数&&日期连续题sql套路有一道经典sql题目,解决连续问题,本文继续总结关于连续性的套路,来自于实际生产项目的问题,本文略去其他不重要信息字段,来从更深地层次解决问题,由于在生产中,常常是理解需求,转换需 阅读全文
posted @ 2021-02-07 23:15 Hoult丶吴邪 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 1.Spark计算依赖内存,如果目前只有10g内存,但是需要将500G的文件排序并输出,需要如何操作? ①、把磁盘上的500G数据分割为100块(chunks),每份5GB。(注意,要留一些系统空间!) ②、顺序将每份5GB数据读入内存,使用quick sort算法排序。 ③、把排序好的数据(也是5 阅读全文
posted @ 2021-01-31 17:39 Hoult丶吴邪 阅读(300) 评论(0) 推荐(1) 编辑
摘要: 1.在生产环境下,如何处理配置文件 && 表的数据处理 配置文件,或者配置表,一般是放在在线db,比如mysql等关系型数据库,或者后台rd直接丢给你一份文件,数据量比起整个离线数据仓库的大表来说算很小,所以这种情况下,一般的做法是将小表,或者小文件广播出去,那么下面一个例子来看,广播表的使用解决i 阅读全文
posted @ 2021-01-31 15:38 Hoult丶吴邪 阅读(1179) 评论(0) 推荐(1) 编辑
摘要: 不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线数仓>ETL工程师>BI工程师(不喜勿喷哈),现在做的工作主要是离线数仓,当然前期也做过一些ETL的工作,为了职业的长远发展,拓宽自己的技术 阅读全文
posted @ 2021-01-25 00:49 Hoult丶吴邪 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线数仓>ETL工程师>BI工程师(不喜勿喷哈),现在做的工作主要是离线数仓,当然前期也做过一些ETL的工作,为了职业的长远发展,拓宽自己的技术 阅读全文
posted @ 2021-01-25 00:47 Hoult丶吴邪 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 生产环境版本 Hive: 1.2.1, Spark: 2.3.2 1.insert overwrite directory 不会覆盖数据 注意,生成结果是目录,生成目录里面的不同文件名不会被覆盖,因此很容易出现数据double或者没有覆盖到数据的问题,比如数据分片原始结果如下: /mytable/0 阅读全文
posted @ 2021-01-25 00:46 Hoult丶吴邪 阅读(367) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 12 下一页