五分钟学大数据

[置顶] 2023版最新最强大数据面试宝典

摘要：此套面试题来自于各大厂的真实面试题及常问的知识点，如果能理解吃透这些问题，你的大数据能力将会大大提升，进入大厂指日可待参考链接： 2023版最新最强大数据面试宝典，附答案解析复习大数据面试题，看这一套就够了！本文目录：一、Hadoop 二、Hive 三、Spark 四、Kafka 五、HBa 阅读全文

posted @ 2023-02-21 15:59 五分钟学大数据阅读(4148) 评论(0) 推荐(0)

2024年6月22日

大数据之数据治理体系全面指南

摘要：数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路，最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系？企业数据治理过程需要注意哪些问题？总体而言，不能一口一个胖子，路要一步一步地走。下面我将结合企业级数据治理经验，详细介绍从0到1搭阅读全文

posted @ 2024-06-22 19:40 五分钟学大数据阅读(1307) 评论(0) 推荐(0)

2022年6月7日

如何保障数仓数据质量？

摘要：导读有赞数据报表中心为商家提供了丰富的数据指标，包括30+页面，100+数据报表以及400+不同类型的数据指标，它们帮助商家更合理、科学地运营店铺，同时也直接提供分析决策方法供商家使用。并且，每天在跑的底层任务和涉及的数据表已经达到千级别。面对如此庞大的数据体系，作为测试如何制定质量保障策略呢？阅读全文

posted @ 2022-06-07 16:43 五分钟学大数据阅读(1053) 评论(0) 推荐(0)

2022年6月6日

Hive参数与性能企业级调优

摘要： Hive作为大数据平台举足轻重的框架，以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive，而不考虑性能问题，就难搭建出一个完美的数仓，所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。 H 阅读全文

posted @ 2022-06-06 11:55 五分钟学大数据阅读(899) 评论(0) 推荐(0)

2022年5月10日

万字长文详解HBase读写性能优化

摘要：一、HBase 读优化 1. HBase客户端优化和大多数系统一样，客户端作为业务读写的入口，姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法，这里一般需要关注四个问题： 1) scan缓存是否设置合理？优化原理：在解释这个问题之前，首先需要解释什么是scan缓存，通常来阅读全文

posted @ 2022-05-10 18:51 五分钟学大数据阅读(1651) 评论(1) 推荐(0)

2022年4月21日

Spark SQL底层执行流程详解

摘要：本文目录一、Apache Spark 二、Spark SQL发展历程三、Spark SQL底层执行原理四、Catalyst 的两大优化一、Apache Spark Apache Spark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错阅读全文

posted @ 2022-04-21 14:42 五分钟学大数据阅读(2541) 评论(0) 推荐(0)

2022年4月13日

数仓建设 | ODS、DWD、DWM等理论实战（好文收藏）

摘要：本文目录：一、数据流向二、应用示例三、何为数仓DW 四、为何要分层五、数据分层六、数据集市七、问题总结导读数仓在建设过程中，对数据的组织管理上，不仅要根据业务进行纵向的主题域划分，还需要横向的数仓分层规范。本文作者围绕企业数仓分层展开分析，希望对你有帮助。因文章太长，本文不是完结版阅读全文

posted @ 2022-04-13 15:03 五分钟学大数据阅读(1765) 评论(0) 推荐(1)

2022年3月31日

最新大厂数据湖面试题，知识点总结

摘要：本文是一篇数据湖的面试题，同时也是数据湖知识点的讲解目录：一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库的区别七、为什么要做数据湖？区别在于？八、数据湖挑战九、湖仓一体十、目前有哪些开源数据湖组件阅读全文

posted @ 2022-03-31 21:05 五分钟学大数据阅读(797) 评论(0) 推荐(0)

2022年3月22日

万字长文详解HiveSQL执行计划

摘要：本文目录：一、前言二、SQL的执行计划 explain 的用法explain 的使用场景案例一：join 语句会过滤 null 的值吗？案例二：group by 分组语句会进行排序吗？案例三：哪条sql执行效率高呢？案例四：定位产生数据倾斜的代码段explain dependency的用阅读全文

posted @ 2022-03-22 10:16 五分钟学大数据阅读(1010) 评论(0) 推荐(0)

2022年3月2日

50000字，数仓建设保姆级教程，离线和实时一网打尽(理论+实战) 下

摘要：本文大纲：因内容较多，本文将直接从第五章开始，完整版文档请点击下方链接：数仓建设保姆级教程PDF文档前四章内容在上方链接获取第五章实时数仓建设核心 1. 实时计算初期虽然实时计算在最近几年才火起来，但是在早期也有部分公司有实时计算的需求，但是数据量比较少，所以在实时方面形成不了完整的体系阅读全文

posted @ 2022-03-02 17:45 五分钟学大数据阅读(1075) 评论(0) 推荐(1)

五分钟学大数据

侧边栏公告处有公众号【五分钟学大数据】二维码，可放心订阅，文章都会首发在公众号上。

公告