摘要: 1.Spark计算依赖内存,如果目前只有10g内存,但是需要将500G的文件排序并输出,需要如何操作? ①、把磁盘上的500G数据分割为100块(chunks),每份5GB。(注意,要留一些系统空间!) ②、顺序将每份5GB数据读入内存,使用quick sort算法排序。 ③、把排序好的数据(也是5 阅读全文
posted @ 2021-01-31 17:39 Hoult丶吴邪 阅读(294) 评论(0) 推荐(1) 编辑
摘要: 1.在生产环境下,如何处理配置文件 && 表的数据处理 配置文件,或者配置表,一般是放在在线db,比如mysql等关系型数据库,或者后台rd直接丢给你一份文件,数据量比起整个离线数据仓库的大表来说算很小,所以这种情况下,一般的做法是将小表,或者小文件广播出去,那么下面一个例子来看,广播表的使用解决i 阅读全文
posted @ 2021-01-31 15:38 Hoult丶吴邪 阅读(1128) 评论(0) 推荐(1) 编辑