摘要: 2、Hive分桶(接着前面hive分区开始学习) 2.1 业务场景 数据分桶的适用场景: 分区提供了一个隔离数据和优化查询的便利方式,不过并非所有的数据都可形成合理的分区,尤其是需要确定合适大小的分区划分方式 不合理的数据分区划分方式可能导致有的分区数据过多,而某些分区没有什么数据的尴尬情况 分桶是 阅读全文
posted @ 2024-07-24 22:53 shmil 阅读(46) 评论(1) 推荐(1) 编辑
摘要: Hive的分区 1、Hive分区(十分重要!!) 分区的目的:避免全表扫描,加快查询速度! 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每 阅读全文
posted @ 2024-07-19 23:06 shmil 阅读(14) 评论(1) 推荐(1) 编辑
摘要: Hive的基本操作 1.3HIve的表操作(接着昨天的继续学习) 1.3.2 显示表 show tables; show tables like 'u*'; desc t_person; desc formatted students; // 更加详细 1.3.3 加载数据 1、使用hdfs dfs 阅读全文
posted @ 2024-07-18 22:49 shmil 阅读(34) 评论(1) 推荐(1) 编辑
摘要: 1、Hive的基本操作 1.1 Hive库操作 1.1.1 创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。 create database testdb; 2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法 阅读全文
posted @ 2024-07-17 22:54 shmil 阅读(21) 评论(1) 推荐(1) 编辑
摘要: Hive的概述 1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 为什么使用Hiv 阅读全文
posted @ 2024-07-16 22:34 shmil 阅读(30) 评论(1) 推荐(1) 编辑
摘要: hive分布式搭建文档 谷歌浏览器下载网址:Google Chrome – Download the fast, secure browser from Google 华为云镜像站:https://mirrors.huaweicloud.com/home 1、上传解压配置环境变量 # 1、解压 ta 阅读全文
posted @ 2024-07-15 22:37 shmil 阅读(8) 评论(1) 推荐(1) 编辑