随笔档案「2021年1月」 - 五分钟学大数据

Spark底层原理详细解析(深度好文，建议收藏)

摘要：Spark简介 Apache Spark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群。 Spark源码从1.x的40w行发展到现在的超过100w行，有1400多位大牛贡献了代码阅读全文

posted @ 2021-01-29 09:53 五分钟学大数据阅读(3003) 评论(4) 推荐(1)

Flink可靠性的基石-checkpoint机制详细解析

摘要：Checkpoint介绍 checkpoint机制是Flink可靠性的基石，可以保证Flink集群在某个算子因为某些原因(如异常退出)出现故障时，能够将整个应用流图的状态恢复到故障之前的某一状态，保证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport 阅读全文

posted @ 2021-01-27 20:12 五分钟学大数据阅读(1471) 评论(0) 推荐(0)

Flink 中极其重要的 Time 与 Window 详细解析(深度好文，建议收藏)

摘要：深入理解Flink底层原理阅读全文

posted @ 2021-01-26 11:36 五分钟学大数据阅读(1537) 评论(0) 推荐(0)

Flink 中极其重要的 Time 与 Window 详细解析(深度好文，建议收藏)

摘要：前言 Flink 是流式的、实时的计算引擎上面一句话就有两个概念，一个是流式，一个是实时。流式：就是数据源源不断的流进来，也就是数据没有边界，但是我们计算的时候必须在一个有边界的范围内进行，所以这里面就有一个问题，边界怎么确定？无非就两种方式，根据时间段或者数据量进行确定，根据时间段就是每隔阅读全文

posted @ 2021-01-25 20:13 五分钟学大数据阅读(1351) 评论(0) 推荐(0)

hive窗口函数/分析函数详细剖析

摘要：hive窗口函数/分析函数在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数阅读全文

posted @ 2021-01-21 21:31 五分钟学大数据阅读(962) 评论(1) 推荐(1)

Kafka底层原理剖析（近万字建议收藏）

摘要：Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发，在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年，仍然是大数据领域不可或缺的并且是越来越重要的一个组件。 K 阅读全文

posted @ 2021-01-18 12:23 五分钟学大数据阅读(3894) 评论(0) 推荐(2)

Kafka底层原理剖析（近万字建议收藏）

摘要：Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发，在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年，仍然是大数据领域不可或缺的并且是越来越重要的一个组件。 K 阅读全文

posted @ 2021-01-18 11:15 五分钟学大数据阅读(840) 评论(0) 推荐(1)

好书推荐--大数据日知录（深入理解大数据的必备书籍）附电子版下载

摘要：今天给大家推荐一本大数据领域中必读的一本书，名字叫《大数据日知录-架构与算法》这本书正如它封面中介绍的一样，全面梳理大数据相关技术，从数据、算法、策略、应用和系统架构等多个维度进行剖析，既包罗万象，又深入浅出。这本书详细介绍了我们所使用的大数据组件的底层原理及实现算法。像Flink中非常重要的阅读全文

posted @ 2021-01-17 12:03 五分钟学大数据阅读(699) 评论(0) 推荐(0)

大厂面试官竟然这么爱问Kafka，一连八个Kafka问题把我问蒙了？

摘要：本文首发于公众号：五分钟学大数据在面试的时候，发现很多面试官特别爱问Kafka相关的问题，这也不难理解，谁让Kafka是大数据领域中消息队列的唯一王者，单机十万级别的吞吐量，毫秒级别的延迟，这种天生的分布式消息队列，谁能不爱？在最近的一场面试中，有个面试官看到简历中的项目上写Kafka了，就直接阅读全文

posted @ 2021-01-14 15:45 五分钟学大数据阅读(417) 评论(0) 推荐(0)

HBase 底层原理详解（深度好文，建议收藏）

摘要：HBase简介 HBase 是一个分布式的、面向列的开源数据库。建立在 HDFS 之上。Hbase的名字的来源是 Hadoop database，即 Hadoop 数据库。HBase 的计算和存储能力取决于 Hadoop 集群。它介于 NoSql 和 RDBMS 之间，仅能通过主键(row key 阅读全文

posted @ 2021-01-14 09:36 五分钟学大数据阅读(2928) 评论(3) 推荐(1)

九个最容易出错的 Hive sql 详解及使用注意事项

摘要：阅读本文小建议：本文适合细嚼慢咽，不要一目十行，不然会错过很多有价值的细节。文章首发于公众号：五分钟学大数据前言在进行数仓搭建和数据分析时最常用的就是 sql，其语法简洁明了，易于理解，目前大数据领域的几大主流框架全部都支持sql语法，包括 hive，spark，flink等，所以sql在大数阅读全文

posted @ 2021-01-12 16:02 五分钟学大数据阅读(3187) 评论(0) 推荐(1)

数仓建设中最常用模型--Kimball维度建模详解

摘要：数仓建模首推书籍《数据仓库工具箱：维度建模权威指南》，本篇文章参考此书而作。文章首发公众号：五分钟学大数据，公众号中发送“维度建模”即可获取此书籍第三版电子书先来介绍下此书，此书是基于作者 60 多年的实际业务环境而总结的经验及教训，为读者提供正式的维度设计和开发技术。面向数仓和BI设计人员，书阅读全文

posted @ 2021-01-11 15:56 五分钟学大数据阅读(3429) 评论(0) 推荐(0)

数仓面试高频考点--解决hive小文件过多问题

摘要：本文首发于公众号：五分钟学大数据小文件产生原因 hive 中的小文件肯定是向 hive 表中导入数据时产生，所以先看下向 hive 中导入数据的几种方式直接向表中插入数据 insert into table A values (1,'zhangsan',88),(2,'lisi',61); 这种阅读全文

posted @ 2021-01-10 11:36 五分钟学大数据阅读(2474) 评论(0) 推荐(0)

五分钟学大数据

侧边栏公告处有公众号【五分钟学大数据】二维码，可放心订阅，文章都会首发在公众号上。

01 2021 档案

公告