五分钟学大数据

2021年6月23日

摘要： Hive SQL的执行计划描述SQL实际执行的整体轮廓，通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑，掌握了执行逻辑也就能更好地把握程序出现的瓶颈点，从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的，看似不等价的SQL其实是等价的SQL。可以说执行计划阅读全文

posted @ 2021-06-23 13:56 五分钟学大数据阅读(793) 评论(1) 推荐(0)

2021年6月15日

Hive窗口函数保姆级教程

摘要：在SQL中有一类函数叫做聚合函数，例如sum()、avg()、max()等等，这类函数可以将多行数据按照规则聚集为一行，一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据，又要显示聚集后的数据，这时我们便引入了窗口函数。窗口函数又叫OLAP函数/分析函数，窗口函数兼具分组阅读全文

posted @ 2021-06-15 17:48 五分钟学大数据阅读(1734) 评论(0) 推荐(0)

2021年6月3日

大数据好书推荐

摘要：大数据好书推荐历时多年整理，每看到一本好书都会收藏下来，到现在一看竟然有100多本了这些书籍确实是大数据的宝藏，从大数据入门到实战，深入原理，大数据架构等全部都有从 hadoop，hive，spark，flink，kafka，hbase，kudu，clickhouse，数仓建模，大数据算法，机阅读全文

posted @ 2021-06-03 15:29 五分钟学大数据阅读(1537) 评论(0) 推荐(1)

2021年5月14日

Hive企业级性能优化

摘要： Hive作为大数据平台举足轻重的框架，以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive，而不考虑性能问题，就难搭建出一个完美的数仓，所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。本阅读全文

posted @ 2021-05-14 11:40 五分钟学大数据阅读(757) 评论(0) 推荐(0)

2021年5月13日

精选Hive高频面试题11道，附答案详细解析(好文收藏)

摘要： 1. hive内部表和外部表的区别未被external修饰的是内部表，被external修饰的为外部表。区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse 阅读全文

posted @ 2021-05-13 18:37 五分钟学大数据阅读(2302) 评论(0) 推荐(2)

2021年5月12日

Hive解析Json数组超全讲解

摘要：在Hive中会有很多数据是用Json格式来存储的，如开发人员对APP上的页面进行埋点时，会将多个字段存放在一个json数组中，因此数据平台调用数据时，要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。本文首发于公众号【五分钟学大数据】 Hive自带的json解析函数 1. ge 阅读全文

posted @ 2021-05-12 10:54 五分钟学大数据阅读(25239) 评论(0) 推荐(3)

2021年4月29日

Hive千亿级数据倾斜解决方案

摘要：数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显，这里要注意本篇文章的标题—“千亿级数据”，为什么说千亿级，因为如果一个任务的数据量只有几百万，它即使发生了数据倾斜，所有数据都跑到一台机器去执行，对于几百万的数据量，一台阅读全文

posted @ 2021-04-29 09:50 五分钟学大数据阅读(2497) 评论(0) 推荐(1)

2021年4月1日

一文学完所有的Hive Sql（两万字最全详解）

摘要： Hive Sql 大全本文基本涵盖了Hive日常使用的所有SQL，因为SQL太多，所以将SQL进行了如下分类：一、DDL语句（数据定义语句）：对数据库的操作：包含创建、修改数据库对数据表的操作：分为内部表及外部表，分区表和分桶表二、DQL语句（数据查询语句）：单表查询、关联查询 hive 阅读全文

posted @ 2021-04-01 20:31 五分钟学大数据阅读(6056) 评论(0) 推荐(1)

2021年3月17日

上万字详解Spark Core（建议收藏）

摘要： 🧡先来一个问题，也是面试中常问的： Spark为什么会流行？原因1：优秀的数据模型和丰富计算抽象 Spark 产生之前，已经有MapReduce这类非常成熟的计算系统存在了，并提供了高层次的API(map/reduce)，把计算运行在集群中并提供容错能力，从而实现分布式计算。虽然MapRedu 阅读全文

posted @ 2021-03-17 11:27 五分钟学大数据阅读(2494) 评论(0) 推荐(0)

2021年3月10日

美团优选大数据开发岗面试真题-附答案详细解析

摘要：公众号（五分钟学大数据）已推出大数据面试系列文章—五分钟小面试，此系列文章将会深入研究各大厂笔面试真题，并根据笔面试题扩展相关的知识点，助力大家都能够成功入职大厂！此面试题来自牛客网友分享的美团优选一面，面试时长一小时。网友情况：海外水本，在某三线中厂工作2年。参考答案由本公众号提供。如有错误，阅读全文

posted @ 2021-03-10 20:28 五分钟学大数据阅读(1716) 评论(0) 推荐(1)

五分钟学大数据

侧边栏公告处有公众号【五分钟学大数据】二维码，可放心订阅，文章都会首发在公众号上。

公告