大数据-Hive - 随笔分类 - 业余砖家

Hive 数据倾斜问题定位排查及解决

摘要：多数介绍数据倾斜的文章都是以大篇幅的理论为主，并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题，这些理论很难直接应用，导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论，直接以例子来实践，排查是否出现了数据倾斜，具体是哪段代码导致的倾斜，怎么解决这段代码的倾斜。当执行过程中任务卡在 99% 阅读全文

posted @ 2024-12-04 18:04 业余砖家阅读(68) 评论(0) 推荐(0) 编辑

Trino(PrestoSQL）和HiveSQL的时间格式转换对比

摘要：1. 获取当前时间--hiveselect from_unixtime(unix_timestamp()); ## 2021-01-06 22:53:16 --精确到今天的时分秒select from_unixtime(unix_timestamp('2021-12-07 13:01:03'),'y 阅读全文

posted @ 2024-02-27 10:58 业余砖家阅读(890) 评论(0) 推荐(0) 编辑

Hive-安装和部署（Hive3.1.3）

摘要：（一）安装前提 (1) 安装JDK1.8及以上版本 (2) 已经安装MySQL，推荐5.7。 (3) 已经安装Hadoop。 JDK、MySQL、Hadoop的安装，本文不再介绍。（二）安装Hive 1．下载并解压Hive安装包（1）下载MySQL安装包 MySQL下载: https://dow 阅读全文

posted @ 2024-02-04 18:27 业余砖家阅读(943) 评论(0) 推荐(0) 编辑

Hive-beeline连接报错：root is not allowed to impersonate root (state=08S01,code=0)

摘要：问题描述使用hive/bin目录下的hive启动客户端，使用!connect jdbc:hive2://hadoop01:10000连接Hive数据仓库时提示输入用户名和密码，输入数据库的用户名和密码报错： Error: Could not open client transport with J 阅读全文

posted @ 2024-02-01 16:32 业余砖家阅读(1444) 评论(0) 推荐(0) 编辑

Hive报错：Call From hadoop01/172.23.238.2 to hadoop01:10020 failed on connection exception

摘要：问题描述在阿里云服务器上安装的Hadoop和Hive，刚开始关闭了防火墙。但是由于服务器被被黑客安装挖矿程序，所以开启了防火墙。但是即使开启了所有可能的端口，但是在向Hive中插入数据时，依然报错提示：Call From hadoop01/172.23.238.2 to hadoop01:1002 阅读全文

posted @ 2024-01-19 14:37 业余砖家阅读(126) 评论(0) 推荐(0) 编辑

Hive-mapjoin详解（mapjoin原理）

摘要：笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。一 .Common Join 如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作阅读全文

posted @ 2023-12-22 15:45 业余砖家阅读(1567) 评论(0) 推荐(0) 编辑

Hive-服务启动和停止命令

摘要：1、启动命令 #！/bin/bash nohup hive --service metastore >>

HIVE_HOME/logs/metasotre.log 2>&1 & nohup hive --service hiveserver2 >>

$HIVE_HOME/logs/metasotre.log 2>&1 & nohup hive --service hiveserver2 >>$ HIVE_HOME/logs/hiveserv 阅读全文

posted @ 2023-10-13 12:22 业余砖家阅读(1056) 评论(0) 推荐(0) 编辑

Hive分区和分桶的区别

摘要：1．前言 Hive的分区和分桶都是细化数据管理，加快数据查询和分析，两者有什么区别呢？下面讲解一下分区和分桶的原理。 2．分区（1）分区原理 Hive的分区表可以有一个或多个分区键，用于确定数据的存储方式。分区（除了作为存储单元）还允许用户有效地识别满足指定条件的数据，显著加快查询分析速度。分区字阅读全文

posted @ 2023-02-08 22:28 业余砖家阅读(902) 评论(0) 推荐(0) 编辑

Hive常见问题

摘要：1．内存溢出（1）map阶段解决：一般存在MapJoin，设置参数set hive.auto.convert.join = false转成reduce端的Common Join。（2）shuffle阶段解决：减少每个reduce处理的数据量，调整参数：hive.exec.reducers.b 阅读全文

posted @ 2022-10-27 22:28 业余砖家阅读(1260) 评论(0) 推荐(0) 编辑

Hive实战

摘要：1．使用hive实现WordCount (1) 创建数据库 create database wordcount; (2) 创建外部表 create external table word_data(line string) row format delimited fields terminated 阅读全文

posted @ 2022-10-27 22:05 业余砖家阅读(114) 评论(0) 推荐(0) 编辑

Hive调优

摘要：1．Fetch抓取 Fetch抓取是指Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.tem 阅读全文

posted @ 2022-10-27 21:08 业余砖家阅读(54) 评论(0) 推荐(0) 编辑

Hive中Lateral view用法

摘要：1. lateral view 简介 hive函数 lateral view 主要功能是将原本汇总在一条（行）的数据拆分成多条（行）成虚拟表，再与原表进行笛卡尔积，从而得到明细表。配合UDTF函数使用，一般情况下经常与explode函数搭配，explode的操作对象（列值）是 ARRAY 或者 MA 阅读全文

posted @ 2022-09-21 14:11 业余砖家阅读(898) 评论(0) 推荐(0) 编辑

Hive压缩和存储

摘要：1．压缩（1）Hive支持的压缩编码压缩格式工具算法文件扩展名是否可切分对应的编码/解码器 DEFLATE 无 DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec Gzip gzip DEFLATE .gz 否 o 阅读全文

posted @ 2022-09-18 21:46 业余砖家阅读(226) 评论(0) 推荐(0) 编辑

Hive查询操作

摘要：1．查询操作语法 SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [C 阅读全文

posted @ 2022-09-13 22:09 业余砖家阅读(346) 评论(0) 推荐(0) 编辑

Hive常用操作

摘要：1．Hive最基本操作（1）启动hive bin/hive （2）查看数据库 hive> show databases; （3）打开默认数据库 hive> use default; （4）显示default数据库中的表 hive> show tables; （5）创建一张表 hive> creat 阅读全文

posted @ 2022-09-09 09:25 业余砖家阅读(702) 评论(0) 推荐(0) 编辑

Hive数据类型

摘要：1．基本数据类型 Hive基本数据类型 Java数据类型长度例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN bool 阅读全文

posted @ 2022-09-09 09:17 业余砖家阅读(72) 评论(0) 推荐(0) 编辑

Hive3.1.2安装部署

摘要：一、安装Hive3.1.2 备注：在安装Hive3.1.2之前，请首先安装Hadoop3.1.3。 1. 下载并解压Hive安装包 tar -zxvf ./apache-hive-3.1.2-bin.tar.gz -C /usr/local cd /usr/local/ mv apache-hive 阅读全文

posted @ 2022-09-09 09:03 业余砖家阅读(795) 评论(0) 推荐(0) 编辑

Hive的基本概念

摘要：一、Hive基本概念 1．什么是Hive? hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载。可以存储、查询和分析存储在Hadoop中的大规模数据。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务阅读全文

posted @ 2022-09-08 14:21 业余砖家阅读(518) 评论(0) 推荐(0) 编辑

Hive数据导入与导出

摘要：数据导入 ● 本地文件导入 -- 本地文件导入(local) LOAD DATA local INPATH '/home/hadoop/sourceA.txt' INTO TABLE testA PARTITION(create_time='2015-07-08'); ● HDFS文件导入 -- H 阅读全文

posted @ 2022-09-01 13:30 业余砖家阅读(81) 评论(0) 推荐(0) 编辑

MaxCompute（ODPS）和Hive的区别

摘要：Hive概述架构于Hadoop之上，可以将结构化的HDFS文件映射成一张表，并提供了类似于SQL语法的HQL查询功能。核心本质：将HQL语句转换成MapReduce任务。 Hive的优缺点优点避免了开发人员去实现Map和Reduce的接口，大大降低了学习成本。 HQL语法类似于SQL语法，简阅读全文

posted @ 2022-09-01 13:13 业余砖家阅读(3186) 评论(0) 推荐(0) 编辑

业余砖家

没有比人更高的山，没有比脚更长的路。

随笔分类 - 大数据-Hive

公告

合集 (1)

随笔分类 (337)

随笔档案 (342)

文章分类 (91)

文章档案 (93)