2021 年 1月 31 日随笔档案 - Hoult丶吴邪

2021年1月31日

摘要： 1.Spark计算依赖内存，如果目前只有10g内存，但是需要将500G的文件排序并输出，需要如何操作？ ①、把磁盘上的500G数据分割为100块（chunks），每份5GB。（注意，要留一些系统空间！） ②、顺序将每份5GB数据读入内存，使用quick sort算法排序。 ③、把排序好的数据（也是5 阅读全文

posted @ 2021-01-31 17:39 Hoult丶吴邪阅读(301) 评论(0) 推荐(1) 编辑

大数据开发-Spark-RDD实操案例-http日志分析

摘要： 1.在生产环境下，如何处理配置文件 && 表的数据处理配置文件，或者配置表，一般是放在在线db，比如mysql等关系型数据库，或者后台rd直接丢给你一份文件，数据量比起整个离线数据仓库的大表来说算很小，所以这种情况下，一般的做法是将小表，或者小文件广播出去，那么下面一个例子来看，广播表的使用解决i 阅读全文

posted @ 2021-01-31 15:38 Hoult丶吴邪阅读(1202) 评论(0) 推荐(1) 编辑

Hoult丶吴邪

A lot can happen between now and never.

公告