五分钟学大数据

2021年3月5日

摘要： RDD算子调优不废话，直接进入正题！ 1. RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算，如下图所示：对上图中的RDD计算架构进行修改，得到如下图所示的优化结果： 2. 尽早filter 获取到初始RDD后，应该考虑尽早地过滤掉不需要的数据，进而减少对内阅读全文

posted @ 2021-03-05 17:03 五分钟学大数据阅读(985) 评论(1) 推荐(1)

2021年3月4日

面试系列二：精选大数据面试真题JVM专项-附答案详细解析

摘要：公众号（五分钟学大数据）已推出大数据面试系列文章—五分钟小面试，此系列文章将会深入研究各大厂笔面试真题，并根据笔面试题扩展相关的知识点，助力大家都能够成功入职大厂！大数据笔面试系列文章分为两种类型：混合型（即一篇文章中会有多个框架的知识点—融会贯通）；专项型（一篇文章针对某个框架进行深入解析—专项阅读全文

posted @ 2021-03-04 09:24 五分钟学大数据阅读(327) 评论(0) 推荐(0)

2021年2月22日

面试系列一：精选大数据面试真题10道（混合型）-附答案详细解析

摘要：本公众号（五分钟学大数据）将推出大数据面试系列文章—五分钟小面试，此系列文章将会深入研究各大厂笔面试真题，并根据笔面试题扩展相关的知识点，助力大家都能够成功入职大厂！大数据笔面试系列文章分为两种类型：混合型（即一篇文章中会有多个框架的知识点—融会贯通）；专项型（一篇文章针对某个框架进行深入解析—专阅读全文

posted @ 2021-02-22 14:11 五分钟学大数据阅读(1082) 评论(0) 推荐(0)

2021年2月20日

Hive底层原理：explain执行计划详解

摘要：不懂hive中的explain，说明hive还没入门，学会explain，能够给我们工作中使用hive带来极大的便利！理论本节将介绍 explain 的用法及参数介绍 HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理，hive 调优，排查数据倾斜等很有帮阅读全文

posted @ 2021-02-20 20:43 五分钟学大数据阅读(6258) 评论(0) 推荐(4)

2021年2月9日

【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)

摘要： 1. HDFS概述 Hadoop 分布式系统框架中，首要的基础功能就是文件系统，在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统，这个抽象类下面有很多子实现类，究竟使用哪一种，需要看我们具体的实现类，在我们实际工作中，用到的最多的就是HDFS(分布式文件系统)以及Loc 阅读全文

posted @ 2021-02-09 12:09 五分钟学大数据阅读(2271) 评论(1) 推荐(0)

2021年2月3日

分析 BAT 互联网巨头在大数据方向布局及大数据未来发展趋势

摘要：风起云涌的大数据战场上，早已迎百花齐放繁荣盛景，各大企业加速跑向“大数据时代”。而我们作为大数据的践行者，在这个“多智时代”如何才能跟上大数据的潮流，把握住大数据的发展方向。前言大数据起源于2000年左右，也就是互联网高速发展阶段。经过几年的发展，到2008年 Hadoop 成为 Apache 阅读全文

posted @ 2021-02-03 20:08 五分钟学大数据阅读(1373) 评论(0) 推荐(3)

2021年2月1日

硬核！八张图搞懂 Flink 端到端精准一次处理语义 Exactly-once（深入原理，建议收藏）

摘要：超详细，纯干货！阅读全文

posted @ 2021-02-01 15:05 五分钟学大数据阅读(2413) 评论(0) 推荐(0)

2021年1月29日

Spark底层原理详细解析(深度好文，建议收藏)

摘要： Spark简介 Apache Spark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群。 Spark源码从1.x的40w行发展到现在的超过100w行，有1400多位大牛贡献了代码阅读全文

posted @ 2021-01-29 09:53 五分钟学大数据阅读(3013) 评论(4) 推荐(1)

2021年1月27日

Flink可靠性的基石-checkpoint机制详细解析

摘要： Checkpoint介绍 checkpoint机制是Flink可靠性的基石，可以保证Flink集群在某个算子因为某些原因(如异常退出)出现故障时，能够将整个应用流图的状态恢复到故障之前的某一状态，保证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport 阅读全文

posted @ 2021-01-27 20:12 五分钟学大数据阅读(1489) 评论(0) 推荐(0)

2021年1月26日

Flink 中极其重要的 Time 与 Window 详细解析(深度好文，建议收藏)

摘要：深入理解Flink底层原理阅读全文

posted @ 2021-01-26 11:36 五分钟学大数据阅读(1541) 评论(0) 推荐(0)

五分钟学大数据

侧边栏公告处有公众号【五分钟学大数据】二维码，可放心订阅，文章都会首发在公众号上。

公告