04 2021 档案

摘要:数据倾斜问题剖析 数据倾斜是分布式系统不可避免的问题,任何分布式系统都有几率发生数据倾斜,但有些小伙伴在平时工作中感知不是很明显,这里要注意本篇文章的标题—“千亿级数据”,为什么说千亿级,因为如果一个任务的数据量只有几百万,它即使发生了数据倾斜,所有数据都跑到一台机器去执行,对于几百万的数据量,一台 阅读全文
posted @ 2021-04-29 09:50 五分钟学大数据 阅读(2219) 评论(0) 推荐(1) 编辑
摘要:Hive Sql 大全 本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一、DDL语句(数据定义语句): 对数据库的操作:包含创建、修改数据库 对数据表的操作:分为内部表及外部表,分区表和分桶表 二、DQL语句(数据查询语句): 单表查询、关联查询 hive 阅读全文
posted @ 2021-04-01 20:31 五分钟学大数据 阅读(4009) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示