摘要:
概述 HBase和传统的数据库有很大的不同之处,比如MySQL,PostGreSQL,Oracle等。在架构和提供的特性方面都有不同之处,HBase去掉了一些伸缩和灵活性的特性,这也就使得hbase拥有一个非常不同的数据模型。设计hbase的表和传统关系数据库非常不同。我会通过解释hbase数据模型 阅读全文
摘要:
一、数据倾斜问题 1、数据倾斜的原因:(1)、key分布不均匀。(2)、业务数据本身的原因。(3)、建表考虑不周。(4)、某些SQL本身就有数据倾斜。 2、如何避免数据的倾斜: (1)给key一个随机的值,打散key。 (2)Hive中的参数调节:①hive.map.aggr = true。②hiv 阅读全文
摘要:
一、有哪些类型的OLAP数仓? 1.按数据量划分 对一件事物或一个东西基于不同角度,可以进行多种分类方式。对数仓产品也一样。比如我们可以基于数据量来选择不同类型的数量,如下图所示: 本系列文章主要关注的是数据量处于百万到百亿级别的偏实时的分析型数仓,Cloudera的Impala、Facebook的 阅读全文
摘要:
背景 若干SQL执行在HIVE上,需要查看特定的执行计划,理解内部的运行机制,笔者以现有的背景做为理解案例: 案例 1 hive> explain 2 > select count(1) from ( 3 > select s_age 4 > from student_tb_txt 5 > grou 阅读全文
摘要:
rt 阅读全文
摘要:
环境: Hadoop 3.1.3 Hive:hive-3.1.2 环境准备: 1 hive> set hive.merge.mapfiles=true; 2 hive> set hive.merge.orcfile.stripe.level=true; 3 hive> set hive.merge. 阅读全文
摘要:
环境: Hadoop 3.1.3 Hive:hive-3.1.2 1. 用MULTI-TABLE-INSERT代替UNION 1 insert into table student_stat partition(tp) 2 select s_age,max(s_birth) stat, 'max' 阅读全文
摘要:
1 # coding: utf-8 2 import random 3 import datetime 4 import sys 5 from imp import reload 6 7 reload(sys) 8 # lastname和first都是为了来随机构造名称 9 lastname = u 阅读全文
摘要:
一、Hive 架构 下面是Hive的架构图 Hive的体系结构可以分为以下几部分: 1、用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server。 在启动 Client模 阅读全文
摘要:
一、Hive 工作原理 Hive 工作原理如下图所示。 Hive构建在Hadoop之上 1、HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的 2、所有的数据都是存储在Hadoop中 3、查询计划被转化为MapReduce任务,在Hadoop中执行(有些查询没有MR任务,如:select 阅读全文