lenomail

2021年3月3日

摘要：概述 HBase和传统的数据库有很大的不同之处，比如MySQL,PostGreSQL,Oracle等。在架构和提供的特性方面都有不同之处，HBase去掉了一些伸缩和灵活性的特性，这也就使得hbase拥有一个非常不同的数据模型。设计hbase的表和传统关系数据库非常不同。我会通过解释hbase数据模型阅读全文

posted @ 2021-03-03 13:59 lenomail 阅读(221) 评论(0) 推荐(0)

2021年1月12日

HIVE问题

摘要：一、数据倾斜问题 1、数据倾斜的原因：（1）、key分布不均匀。（2）、业务数据本身的原因。（3）、建表考虑不周。（4）、某些SQL本身就有数据倾斜。 2、如何避免数据的倾斜：（1）给key一个随机的值，打散key。（2）Hive中的参数调节：①hive.map.aggr = true。②hiv 阅读全文

posted @ 2021-01-12 10:32 lenomail 阅读(168) 评论(0) 推荐(0)

2021年1月7日

转：OLAP数仓从百万到百亿级数据量实时分析

摘要：一、有哪些类型的OLAP数仓？ 1.按数据量划分对一件事物或一个东西基于不同角度，可以进行多种分类方式。对数仓产品也一样。比如我们可以基于数据量来选择不同类型的数量，如下图所示：本系列文章主要关注的是数据量处于百万到百亿级别的偏实时的分析型数仓，Cloudera的Impala、Facebook的阅读全文

posted @ 2021-01-07 11:42 lenomail 阅读(366) 评论(0) 推荐(0)

2020年12月14日

continue 解读HIVE SQL 执行计划

摘要：背景若干SQL执行在HIVE上，需要查看特定的执行计划，理解内部的运行机制，笔者以现有的背景做为理解案例：案例 1 hive> explain 2 > select count(1) from ( 3 > select s_age 4 > from student_tb_txt 5 > grou 阅读全文

posted @ 2020-12-14 22:07 lenomail 阅读(134) 评论(0) 推荐(0)

Waiting Hive SQL

摘要： rt 阅读全文

posted @ 2020-12-14 21:28 lenomail 阅读(42) 评论(0) 推荐(0)

2020年12月6日

Hive 调优-存储篇

摘要：环境： Hadoop 3.1.3 Hive:hive-3.1.2 环境准备： 1 hive> set hive.merge.mapfiles=true; 2 hive> set hive.merge.orcfile.stripe.level=true; 3 hive> set hive.merge. 阅读全文

posted @ 2020-12-06 21:43 lenomail 阅读(90) 评论(0) 推荐(0)

Hive 调优-SQL篇

摘要：环境： Hadoop 3.1.3 Hive:hive-3.1.2 1. 用MULTI-TABLE-INSERT代替UNION 1 insert into table student_stat partition(tp) 2 select s_age,max(s_birth) stat, 'max' 阅读全文

posted @ 2020-12-06 16:34 lenomail 阅读(279) 评论(0) 推荐(0)

2020年12月5日

Hive 调优代码准备

摘要： 1 # coding: utf-8 2 import random 3 import datetime 4 import sys 5 from imp import reload 6 7 reload(sys) 8 # lastname和first都是为了来随机构造名称 9 lastname = u 阅读全文

posted @ 2020-12-05 21:32 lenomail 阅读(79) 评论(0) 推荐(0)

2020年12月4日

Hive 架构

摘要：一、Hive 架构下面是Hive的架构图 Hive的体系结构可以分为以下几部分： 1、用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模阅读全文

posted @ 2020-12-04 13:50 lenomail 阅读(868) 评论(0) 推荐(0)

Hive工作原理

摘要：一、Hive 工作原理 Hive 工作原理如下图所示。 Hive构建在Hadoop之上 1、HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的 2、所有的数据都是存储在Hadoop中 3、查询计划被转化为MapReduce任务，在Hadoop中执行（有些查询没有MR任务，如：select 阅读全文

posted @ 2020-12-04 13:42 lenomail 阅读(1021) 评论(0) 推荐(0)

公告