五分钟学大数据

2021年8月16日

摘要：在 MapReduce 框架中， Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁， Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O，因此 Shuffle 性能的高低直接影响整个程序的性能。 Spark 也阅读全文

posted @ 2021-08-16 15:26 五分钟学大数据阅读(5104) 评论(0) 推荐(2)

2021年8月5日

实战 | Hive 数据倾斜问题定位排查及解决

摘要： Hive 数据倾斜怎么发现，怎么定位，怎么解决多数介绍数据倾斜的文章都是以大篇幅的理论为主，并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题，这些理论很难直接应用，导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论，直接以例子来实践，排查是否出现了数据倾斜，具体是哪段代码导致的倾斜，怎么解阅读全文

posted @ 2021-08-05 21:28 五分钟学大数据阅读(3429) 评论(0) 推荐(0)

2021年8月2日

Hive SQL语句的正确执行顺序

摘要：关于 sql 语句的执行顺序网上有很多资料，但是大多都没进行验证，并且很多都有点小错误，尤其是对于 select 和 group by 执行的先后顺序，有说 select 先执行，有说 group by 先执行，到底它俩谁先执行呢？今天我们通过 explain 来验证下 sql 的执行顺序。在验阅读全文

posted @ 2021-08-02 09:55 五分钟学大数据阅读(2386) 评论(0) 推荐(2)

2021年7月22日

关于数仓建设及数据治理的超全概括

摘要：本文分为两大节介绍，第一节是数仓建设，第二节是数据治理，内容较长，还请耐心阅读！在谈数仓之前，先来看下面几个问题：数仓为什么要分层？用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据；不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗阅读全文

posted @ 2021-07-22 15:34 五分钟学大数据阅读(2300) 评论(0) 推荐(3)

2021年7月17日

基于Flink构建全场景实时数仓

摘要：目录：一. 实时计算初期二. 实时数仓建设三. Lambda架构的实时数仓四. Kappa架构的实时数仓五. 流批结合的实时数仓实时计算初期虽然实时计算在最近几年才火起来，但是在早期也有部分公司有实时计算的需求，但是数据量比较少，所以在实时方面形成不了完整的体系，基本所有的开发都是具体阅读全文

posted @ 2021-07-17 13:00 五分钟学大数据阅读(2879) 评论(1) 推荐(1)

2021年7月16日

2021超全大数据面试宝典，吐血总结十万字，大数据面试收藏这一篇就够了

摘要：本文最新版已发布至公众号【五分钟学大数据】获取此套面试题最新pdf版，请搜索公众号【五分钟学大数据】，对话框发送面试宝典扫码获取最新PDF版：版本时间描述 V1.0 2020-02-18 创建 V1.2 2020-06-17 新增 spark 、flink相关面试题 V1.3 2021- 阅读全文

posted @ 2021-07-16 16:22 五分钟学大数据阅读(2220) 评论(0) 推荐(0)

2021年7月13日

Flink进入大厂面试准备，收藏这一篇就够了

摘要： 1. Flink 的容错机制（checkpoint） Checkpoint机制是Flink可靠性的基石，可以保证Flink集群在某个算子因为某些原因(如异常退出)出现故障时，能够将整个应用流图的状态恢复到故障之前的某一状态，保证应用流图状态的一致性。Flink的Checkpoint机制原理来自“C 阅读全文

posted @ 2021-07-13 17:45 五分钟学大数据阅读(1630) 评论(0) 推荐(0)

2021年7月12日

一文读懂大数据实时计算

摘要：本文分为四个章节介绍实时计算，第一节介绍实时计算出现的原因及概念；第二节介绍实时计算的应用场景；第三节介绍实时计算常见的架构；第四节是实时数仓解决方案。一、实时计算实时计算一般都是针对海量数据进行的，并且要求为秒级。由于大数据兴起之初，Hadoop并没有给出实时计算解决方案，随后Storm，阅读全文

posted @ 2021-07-12 09:53 五分钟学大数据阅读(10572) 评论(1) 推荐(3)

2021年7月11日

MPP大规模并行处理架构详解

摘要：面试官：说下你知道的MPP架构的计算引擎？这个问题不少小伙伴在面试时都遇到过，因为对MPP这个概念了解较少，不少人都卡壳了，但是我们常用的大数据计算引擎有很多都是MPP架构的，像我们熟悉的Impala、ClickHouse、Druid、Doris等都是MPP架构。采用MPP架构的很多OLAP引擎阅读全文

posted @ 2021-07-11 16:33 五分钟学大数据阅读(4439) 评论(0) 推荐(1)

2021年7月3日

精选Hive高频面试题11道，附答案详细解析(好文收藏)

摘要： 1. hive内部表和外部表的区别未被external修饰的是内部表，被external修饰的为外部表。本文首发于公众号【五分钟学大数据】，关注公众号，获取最新大数据技术文章区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.w 阅读全文

posted @ 2021-07-03 15:40 五分钟学大数据阅读(860) 评论(0) 推荐(0)

五分钟学大数据

侧边栏公告处有公众号【五分钟学大数据】二维码，可放心订阅，文章都会首发在公众号上。

公告