随笔分类 - 大数据-Hive
摘要:多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。 今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。 当执行过程中任务卡在 99%
阅读全文
摘要:1. 获取当前时间--hiveselect from_unixtime(unix_timestamp()); ## 2021-01-06 22:53:16 --精确到今天的时分秒select from_unixtime(unix_timestamp('2021-12-07 13:01:03'),'y
阅读全文
摘要:(一)安装前提 (1) 安装JDK1.8及以上版本 (2) 已经安装MySQL,推荐5.7。 (3) 已经安装Hadoop。 JDK、MySQL、Hadoop的安装,本文不再介绍。 (二)安装Hive 1.下载并解压Hive安装包 (1)下载MySQL安装包 MySQL下载: https://dow
阅读全文
摘要:问题描述 使用hive/bin目录下的hive启动客户端,使用!connect jdbc:hive2://hadoop01:10000连接Hive数据仓库时提示输入用户名和密码,输入数据库的用户名和密码报错: Error: Could not open client transport with J
阅读全文
摘要:问题描述 在阿里云服务器上安装的Hadoop和Hive,刚开始关闭了防火墙。但是由于服务器被被黑客安装挖矿程序,所以开启了防火墙。但是即使开启了所有可能的端口,但是在向Hive中插入数据时,依然报错提示:Call From hadoop01/172.23.238.2 to hadoop01:1002
阅读全文
摘要:笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。 一 .Common Join 如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作
阅读全文
摘要:1、启动命令 #!/bin/bash nohup hive --service metastore >> HIVE_HOME/logs/hiveserv
阅读全文
摘要:1.前言 Hive的分区和分桶都是细化数据管理,加快数据查询和分析,两者有什么区别呢?下面讲解一下分区和分桶的原理。 2.分区 (1)分区原理 Hive的分区表可以有一个或多个分区键,用于确定数据的存储方式。分区(除了作为存储单元)还允许用户有效地识别满足指定条件的数据,显著加快查询分析速度。分区字
阅读全文
摘要:1.内存溢出 (1)map阶段 解决:一般存在MapJoin,设置参数set hive.auto.convert.join = false转成reduce端的Common Join。 (2)shuffle阶段 解决:减少每个reduce处理的数据量,调整参数:hive.exec.reducers.b
阅读全文
摘要:1.使用hive实现WordCount (1) 创建数据库 create database wordcount; (2) 创建外部表 create external table word_data(line string) row format delimited fields terminated
阅读全文
摘要:1.Fetch抓取 Fetch抓取是指Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.tem
阅读全文
摘要:1. lateral view 简介 hive函数 lateral view 主要功能是将原本汇总在一条(行)的数据拆分成多条(行)成虚拟表,再与原表进行笛卡尔积,从而得到明细表。配合UDTF函数使用,一般情况下经常与explode函数搭配,explode的操作对象(列值)是 ARRAY 或者 MA
阅读全文
摘要:1.压缩 (1)Hive支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 对应的编码/解码器 DEFLATE 无 DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec Gzip gzip DEFLATE .gz 否 o
阅读全文
摘要:1.查询操作语法 SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [C
阅读全文
摘要:1.Hive最基本操作 (1)启动hive bin/hive (2)查看数据库 hive> show databases; (3)打开默认数据库 hive> use default; (4)显示default数据库中的表 hive> show tables; (5)创建一张表 hive> creat
阅读全文
摘要:1.基本数据类型 Hive基本数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN bool
阅读全文
摘要:一、安装Hive3.1.2 备注:在安装Hive3.1.2之前,请首先安装Hadoop3.1.3。 1. 下载并解压Hive安装包 tar -zxvf ./apache-hive-3.1.2-bin.tar.gz -C /usr/local cd /usr/local/ mv apache-hive
阅读全文
摘要:一、Hive基本概念 1.什么是Hive? hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。可以存储、查询和分析存储在Hadoop中的大规模数据。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务
阅读全文
摘要:数据导入 ● 本地文件导入 -- 本地文件导入(local) LOAD DATA local INPATH '/home/hadoop/sourceA.txt' INTO TABLE testA PARTITION(create_time='2015-07-08'); ● HDFS文件导入 -- H
阅读全文
摘要:Hive概述 架构于Hadoop之上,可以将结构化的HDFS文件映射成一张表,并提供了类似于SQL语法的HQL查询功能。 核心本质:将HQL语句转换成MapReduce任务。 Hive的优缺点 优点 避免了开发人员去实现Map和Reduce的接口,大大降低了学习成本。 HQL语法类似于SQL语法,简
阅读全文