梦里繁花

[置顶] 大数据常见架构

摘要：经典离线数仓架构（业界主流） ODS 数据准备区 DW 数据仓库层（DMI公共维度，DWD数据明细，DWS轻度数据汇聚） ADS 应用层分层原因：1、简化问题2、明细血缘3、减少重复开发、计算4、适应业务的快速变化 Lambda架构（当前业界主流） batch Layer 批处理层（离线）处理全阅读全文

posted @ 2023-04-12 00:14 梦里繁花阅读(205) 评论(1) 推荐(0) 编辑

2023年6月19日

python代码中的字节串和字符串

摘要：字符串：存储文本信息，用于处理文本 str='字符串' 字节串：存储二进制数据，常用于处理图像、音频、网络等数据 byte=b'字节串' 相互转换： str=byte.decode() byte=str.encode() 阅读全文

posted @ 2023-06-19 16:52 梦里繁花阅读(68) 评论(0) 推荐(0) 编辑

2023年6月8日

SparkUI中的Peak Pool Memory Direct / Mapped (直接缓冲池和映射缓冲池)

摘要： Peak Pool Memory Direct / Mapped --直接缓冲池和映射缓冲池峰值内存 ## 什么是直接缓冲池和映射缓冲池？在Java中，有两种类型的缓冲池：直接缓冲池和映射缓冲池。直接缓冲池 1）从堆外内存分配，不受JVM管理 2）占用内存较多 3）相比从JVM复制数据到本地，性阅读全文

posted @ 2023-06-08 11:28 梦里繁花阅读(68) 评论(0) 推荐(0) 编辑

2023年4月11日

回来了，好好更新

摘要：之前知识总结、分享都是在公司内网进行，现在重新回到博客园。原因如下：低情商：内网的圈子太狭隘了，和外界不互通，接收不到反馈，但无法树立自己的个人声誉高情商：当前新一波AI浪潮的风起云涌，但中文AI止步不前，中文互联网的凋零正在杀死中文AI。中国AI或许可以通过英文训练，追上第一队列，但基于英阅读全文

posted @ 2023-04-11 18:01 梦里繁花阅读(36) 评论(0) 推荐(0) 编辑

2022年1月14日

Kylin3.1.2实战--调优CUBE构建数据倾斜优化

摘要： kylin构建时数据倾斜发生情况及解决方案一览： 1)未开启重新分发中间表 (kylin.source.hive.redistribute-flat-table： false的时候，默认为True) 问题分析：先考虑启动Kylin自带缓解数据倾斜方案，也就是重分发中间表。解决方案：开启重分发中间表阅读全文

posted @ 2022-01-14 17:23 梦里繁花阅读(110) 评论(0) 推荐(0) 编辑

Kylin基础知识图

摘要：阅读全文

posted @ 2022-01-14 17:04 梦里繁花阅读(21) 评论(0) 推荐(0) 编辑

2021年10月21日

Spark解决SQL和RDDjoin结果不一致问题（工作实录）

摘要：问题描述：DataFrame的join结果不正确，dataframeA(6000无重复条数据) join dataframeB(220条无重复数据，由dataframeA转化而来，key值均源于dataframeA) 只有200条数据，丢了20条问题验证： 1，查询丢的20条数据，均无异常，不存在阅读全文

posted @ 2021-10-21 11:54 梦里繁花阅读(457) 评论(0) 推荐(0) 编辑

2021年9月23日

大数据开发工师面试复盘

摘要：最近面试了静极思动，面试了不少大数据相关岗位。总结了一下考察的相关范围： 1、Java基础出乎意料，大数据岗也会问一下不少Java的知识，像多线程、JVM内存管理、四种引用、GC机制、CMS和G1区别都是考察的重点 2、算法 HiveSQL 经典：分组TopN、连续值求解问题经典算法：超内存阅读全文

posted @ 2021-09-23 09:49 梦里繁花阅读(78) 评论(0) 推荐(0) 编辑

2021年8月31日

Hive中的4种Join方式

摘要： common join 普通join，性能较差，存在Shuffle map join 适用情况：大表join小表时，做不等值join 原理：将小表数据广播到各个节点，存储在内存中，在map阶段直接join，不需要进行reduce，没有了shuffle 优点：性能大大提高限制：小表需要在内存中放的下阅读全文

posted @ 2021-08-31 16:40 梦里繁花阅读(676) 评论(0) 推荐(0) 编辑

2021年8月23日

Spark分区器浅析

摘要：分区器作用：决定该数据在哪个分区概览：仅仅只有pairRDD才可能持有分区器，普通RDD的分区器为None 在分区器为None时RDD分区一般继承至父RDD分区初始RDD分区数：由集合创建，RDD分区数为cores总数由本地文件创建，RDD分区数为本地文件分片数由HDFS文件创建，RDD 阅读全文

posted @ 2021-08-23 15:40 梦里繁花阅读(124) 评论(0) 推荐(0) 编辑

公告