12 2021 档案

摘要:Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。 优化的核心思想是: 减少数据量(例如分区、列剪裁) 避免数据倾斜(例如加参数、Key打散) 避免全表扫描(例如on添加加上分区等) 减少job数(例如相同的on条件的join放在一起 阅读全文
posted @ 2021-12-28 09:11 五分钟学大数据 阅读(3256) 评论(0) 推荐(0) 编辑
摘要:本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦! 注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。 阅读全文
posted @ 2021-12-23 16:09 五分钟学大数据 阅读(1164) 评论(0) 推荐(0) 编辑
摘要:本文大纲: 因内容较多,带目录的PDF查看是比较方便的: 数仓建设保姆级教程PDF文档 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个问题从来就没有一个准确的答案。这里我们引用一段话:在软件行业,一种被普遍接受的架构定义是指系统的 阅读全文
posted @ 2021-12-14 11:28 五分钟学大数据 阅读(4884) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示