随笔分类 - 【吗喽的搬砖日常】 / Hive
摘要:
分区分桶表的作用、建表语句、分区分桶数据的insert和select操作、分区分桶键的设置、分区分桶数的评估......
阅读全文
![Hive - [08] 数据仓库物理模型设计](https://img2024.cnblogs.com/blog/1729889/202404/1729889-20240423223521561-1329489975.png)
摘要:行转列(多行转一行) 1、创建表,并插入示例数据。 create table students_info( `SNO` string comment '学生编号', `name` string comment '姓名', `DEPART` string comment '选修课程' ) -- 学生信
阅读全文
摘要:一、文件存储格式 Hive的文件存储格式包括:textfile、sequence、rcfile、orc、parquet textfile (简介)默认的文件格式,基于行存储。建表时不指定存储格式即为textfile,导入数据时把数据文件拷贝到hdfs不进行处理。 (优点)便于和其他工具(pig,gr
阅读全文
摘要:1、窗口函数 分组,分组聚合,聚合开窗函数和排序开窗函数 create table student_scores( id int, studentId int, language int, math int, english int, classId string, departmentId str
阅读全文
摘要:什么是Hive?答案:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive的数据存储在哪里?答案:Hive的数据通常存储在Hadoop分布式文件系统(HDFS)上。Hive将HDFS上的数据映射成表格形式,并提供类似SQL的查询语
阅读全文
摘要:数据流转设计 表的分类 按所有权分类可分为:外部表(外表)和托管表(内部表、内表)。 按表的存储格式分类可分为:Text表、Orc表、Torc表、Holodesk表、Hyperbase表、ES表 按表是否分区可分为:分区表和非分区表 按表是否分桶可分为:分桶表和非分桶表 表的应用场景 数据集市交互式
阅读全文
摘要:关于torc、textfile、orc、es、hyperdrive表的CURD测试 TORC(支持事务的orc表)测试 TORC(分区表)测试 TEXTFILE 表测试 ORC 表测试 ES(ElasticSearch表)测试 hyperdrive 表测试 TORC(支持事务的orc表)测试 --
阅读全文
摘要:一、相关链接地址 Hive官网:https://hive.apache.org/ Hive下载页面:https://downloads.apache.org/hive/ 中科大镜像地址:http://mirrors.ustc.edu.cn/apache/hive/hive-3.1.2/ 清华大学镜像
阅读全文
摘要:BEELINE 访问 Hive CLI 数据定义语言(DDL) 数据操作语言(DML) 事务控制语言(TCL) 数据控制语言(DCL) BEELINE 访问 Hive CLI # 使用beeline访问Hive的CLI beeline -u jdbc:hive2://localhost:10000
阅读全文
摘要:
一、Hive是什么 是Facebook开源,用于解决海量结构化日志的数据统计工具。 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 Hive处理的数据存储在HDFS上,数据分析底层实现是MR,执行程序运行在Yarn上。 二、Hive的优缺点 优点(
阅读全文
![Hive - [01] 概述](https://img2024.cnblogs.com/blog/1729889/202404/1729889-20240423223537465-1699767120.png)