合集-Hive

摘要:1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 思考:计算文件user.txt中 阅读全文
posted @ 2023-12-08 19:26 SIKeborn 阅读(161) 评论(0) 推荐(0) 编辑
摘要:1、Hive分区(十分重要!!) 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了 阅读全文
posted @ 2023-12-08 19:38 SIKeborn 阅读(71) 评论(0) 推荐(0) 编辑
摘要:SQL练习 1、count(*)、count(1) 、count('字段名') 区别 从执行结果来看 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL 最快的 co 阅读全文
posted @ 2023-12-13 09:40 SIKeborn 阅读(739) 评论(0) 推荐(0) 编辑
摘要:1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是 阅读全文
posted @ 2023-12-13 10:10 SIKeborn 阅读(50) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示