随笔分类 -  大数据-Hive

摘要:多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。 今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。 当执行过程中任务卡在 99% 阅读全文
posted @ 2024-12-04 18:04 业余砖家 阅读(68) 评论(0) 推荐(0) 编辑
摘要:1. 获取当前时间--hiveselect from_unixtime(unix_timestamp()); ## 2021-01-06 22:53:16 --精确到今天的时分秒select from_unixtime(unix_timestamp('2021-12-07 13:01:03'),'y 阅读全文
posted @ 2024-02-27 10:58 业余砖家 阅读(890) 评论(0) 推荐(0) 编辑
摘要:(一)安装前提 (1) 安装JDK1.8及以上版本 (2) 已经安装MySQL,推荐5.7。 (3) 已经安装Hadoop。 JDK、MySQL、Hadoop的安装,本文不再介绍。 (二)安装Hive 1.下载并解压Hive安装包 (1)下载MySQL安装包 MySQL下载: https://dow 阅读全文
posted @ 2024-02-04 18:27 业余砖家 阅读(943) 评论(0) 推荐(0) 编辑
摘要:问题描述 使用hive/bin目录下的hive启动客户端,使用!connect jdbc:hive2://hadoop01:10000连接Hive数据仓库时提示输入用户名和密码,输入数据库的用户名和密码报错: Error: Could not open client transport with J 阅读全文
posted @ 2024-02-01 16:32 业余砖家 阅读(1444) 评论(0) 推荐(0) 编辑
摘要:问题描述 在阿里云服务器上安装的Hadoop和Hive,刚开始关闭了防火墙。但是由于服务器被被黑客安装挖矿程序,所以开启了防火墙。但是即使开启了所有可能的端口,但是在向Hive中插入数据时,依然报错提示:Call From hadoop01/172.23.238.2 to hadoop01:1002 阅读全文
posted @ 2024-01-19 14:37 业余砖家 阅读(126) 评论(0) 推荐(0) 编辑
摘要:笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。 一 .Common Join 如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作 阅读全文
posted @ 2023-12-22 15:45 业余砖家 阅读(1567) 评论(0) 推荐(0) 编辑
摘要:1、启动命令 #!/bin/bash nohup hive --service metastore >> HIVE_HOME/logs/metasotre.log 2>&1 & nohup hive --service hiveserver2 >>HIVE_HOME/logs/hiveserv 阅读全文
posted @ 2023-10-13 12:22 业余砖家 阅读(1056) 评论(0) 推荐(0) 编辑
摘要:1.前言 Hive的分区和分桶都是细化数据管理,加快数据查询和分析,两者有什么区别呢?下面讲解一下分区和分桶的原理。 2.分区 (1)分区原理 Hive的分区表可以有一个或多个分区键,用于确定数据的存储方式。分区(除了作为存储单元)还允许用户有效地识别满足指定条件的数据,显著加快查询分析速度。分区字 阅读全文
posted @ 2023-02-08 22:28 业余砖家 阅读(902) 评论(0) 推荐(0) 编辑
摘要:1.内存溢出 (1)map阶段 解决:一般存在MapJoin,设置参数set hive.auto.convert.join = false转成reduce端的Common Join。 (2)shuffle阶段 解决:减少每个reduce处理的数据量,调整参数:hive.exec.reducers.b 阅读全文
posted @ 2022-10-27 22:28 业余砖家 阅读(1260) 评论(0) 推荐(0) 编辑
摘要:1.使用hive实现WordCount (1) 创建数据库 create database wordcount; (2) 创建外部表 create external table word_data(line string) row format delimited fields terminated 阅读全文
posted @ 2022-10-27 22:05 业余砖家 阅读(114) 评论(0) 推荐(0) 编辑
摘要:1.Fetch抓取 Fetch抓取是指Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.tem 阅读全文
posted @ 2022-10-27 21:08 业余砖家 阅读(54) 评论(0) 推荐(0) 编辑
摘要:1. lateral view 简介 hive函数 lateral view 主要功能是将原本汇总在一条(行)的数据拆分成多条(行)成虚拟表,再与原表进行笛卡尔积,从而得到明细表。配合UDTF函数使用,一般情况下经常与explode函数搭配,explode的操作对象(列值)是 ARRAY 或者 MA 阅读全文
posted @ 2022-09-21 14:11 业余砖家 阅读(898) 评论(0) 推荐(0) 编辑
摘要:1.压缩 (1)Hive支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 对应的编码/解码器 DEFLATE 无 DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec Gzip gzip DEFLATE .gz 否 o 阅读全文
posted @ 2022-09-18 21:46 业余砖家 阅读(226) 评论(0) 推荐(0) 编辑
摘要:1.查询操作语法 SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [C 阅读全文
posted @ 2022-09-13 22:09 业余砖家 阅读(346) 评论(0) 推荐(0) 编辑
摘要:1.Hive最基本操作 (1)启动hive bin/hive (2)查看数据库 hive> show databases; (3)打开默认数据库 hive> use default; (4)显示default数据库中的表 hive> show tables; (5)创建一张表 hive> creat 阅读全文
posted @ 2022-09-09 09:25 业余砖家 阅读(702) 评论(0) 推荐(0) 编辑
摘要:1.基本数据类型 Hive基本数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN bool 阅读全文
posted @ 2022-09-09 09:17 业余砖家 阅读(72) 评论(0) 推荐(0) 编辑
摘要:一、安装Hive3.1.2 备注:在安装Hive3.1.2之前,请首先安装Hadoop3.1.3。 1. 下载并解压Hive安装包 tar -zxvf ./apache-hive-3.1.2-bin.tar.gz -C /usr/local cd /usr/local/ mv apache-hive 阅读全文
posted @ 2022-09-09 09:03 业余砖家 阅读(795) 评论(0) 推荐(0) 编辑
摘要:一、Hive基本概念 1.什么是Hive? hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。可以存储、查询和分析存储在Hadoop中的大规模数据。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务 阅读全文
posted @ 2022-09-08 14:21 业余砖家 阅读(518) 评论(0) 推荐(0) 编辑
摘要:数据导入 ● 本地文件导入 -- 本地文件导入(local) LOAD DATA local INPATH '/home/hadoop/sourceA.txt' INTO TABLE testA PARTITION(create_time='2015-07-08'); ● HDFS文件导入 -- H 阅读全文
posted @ 2022-09-01 13:30 业余砖家 阅读(81) 评论(0) 推荐(0) 编辑
摘要:Hive概述 架构于Hadoop之上,可以将结构化的HDFS文件映射成一张表,并提供了类似于SQL语法的HQL查询功能。 核心本质:将HQL语句转换成MapReduce任务。 Hive的优缺点 优点 避免了开发人员去实现Map和Reduce的接口,大大降低了学习成本。 HQL语法类似于SQL语法,简 阅读全文
posted @ 2022-09-01 13:13 业余砖家 阅读(3186) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示