hive - 随笔分类 - ~小小~

hive优化（4/4）

摘要：Hive学习（四） Hive优化 1.1 hive的随机抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进阅读全文

posted @ 2022-10-07 19:19 ~小小~ 阅读(92) 评论(0) 推荐(0)

hive（3/4）sql使用、窗口函数

摘要：第三天笔记 SQL练习 1、count(*)、count(1) 、count('字段名') 区别从执行结果来看 count(*)包括了所有的列，相当于行数，在统计结果的时候，不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列，用1代表代码行，在统计结果的时候，不会忽略列值为NULL 阅读全文

posted @ 2022-10-07 19:18 ~小小~ 阅读(297) 评论(0) 推荐(0)

hive（2/4）

摘要：Hive1.2.1学习（二） 1、Hive分区在大数据中，最常见的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天或者每小时切分成一个个小的文件，这样去操作小的文件阅读全文

posted @ 2022-10-07 19:10 ~小小~ 阅读(76) 评论(0) 推荐(0)

hive（1/4）

摘要：1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更近一步说hive就是一个MapReduce客户端。思考：计算文件user.txt中张三出现几次，使用ma 阅读全文

posted @ 2022-10-07 18:56 ~小小~ 阅读(242) 评论(0) 推荐(0)

xiaoxiao-

随笔分类 - hive

公告