随笔分类 -  Hive

记录平时工作中遇到的问题和知识点
窗口函数大概分类
摘要:窗口函数不改变原始数据,只在原表上新增字段,并在新增字段实现结果,为每一行都返回一个结果。 一、排名窗口函数 row_number() over(partition by xxx order by xxx desc/asc) 窗口内记录的唯一序号,没有重复值 rank() over(partitio 阅读全文
posted @ 2025-07-07 13:16 dw2nn 阅读(34) 评论(0) 推荐(0)
使用purge批量删除hive表分区
摘要:假如想删除某个特定日期前的分区,可以参考下面语句: alter table table_name drop partition (dt<'20231201') purge; 阅读全文
posted @ 2024-12-05 14:59 dw2nn 阅读(184) 评论(0) 推荐(0)
Hive表常用的存储格式有哪几种?
摘要:1. 一般常用的有5种(textfile, sequencefile, rcfile, orc, parquet),默认的存储格式是textfile。 2. 5种存储格式的区别 存储格式文件存储编码格式建表指定 textfile 将表中的数据在hdfs上以正常文本的格式存储,下载后可以直接查看。 s 阅读全文
posted @ 2024-10-16 15:41 dw2nn 阅读(307) 评论(0) 推荐(0)