hive - 随笔分类 - 潜摩羯

hive sql中的四个by

摘要：1.order by col_list：全局排序，默认为升序asc ,因此只有一个reducer,只有一个reduce task的结果，比如文件名是000000_0,会导致当输入规模较大时，需要较长的计算时间。如果指定了hive.mapred.mode=strict（默认值是nonstrict 阅读全文

posted @ 2022-05-09 12:20 潜摩羯阅读(300) 评论(0) 推荐(0) 编辑

hive的 if函数和COALESCE函数

摘要：•If函数: if if函数：语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull)返回值: T说明: 当条件testCondition为TRUE时，返回valueTrue；否则返回valueFalseOrNull举例：hive 阅读全文

posted @ 2022-05-08 19:21 潜摩羯阅读(1858) 评论(0) 推荐(0) 编辑

hive优化数据倾斜

摘要：hive数据倾斜产⽣的原因数据倾斜的原因很⼤部分是join倾斜和聚合倾斜两⼤类⼀、Hive倾斜之group by聚合倾斜原因：分组的维度过少，每个维度的值过多，导致处理某值的reduce耗时很久；对⼀些类型统计的时候某种类型的数据量特别多，其他的数据类型特别少。当按照类型进⾏group by的时阅读全文

posted @ 2022-05-08 17:17 潜摩羯阅读(152) 评论(0) 推荐(0) 编辑

hive 分区和分桶

摘要：分区表： create table fzname_p ( id int, name string, age int, tel string ) PARTITIONED BY (month string) 指定分区 ROW FORMAT DELIMITED FIELDS TERMINATED BY ' 阅读全文

posted @ 2022-05-08 15:53 潜摩羯阅读(209) 评论(0) 推荐(0) 编辑

hive常用命令

摘要：1、进⼊hive数据库：hive2、查看hive中的所有数据库：show databases;3、⽤default数据库：use default;4、查看所有的表：show tables;5、查询表结构：desc mytest（表名）;6、查询表数据： select * from mytest（表名阅读全文

posted @ 2022-05-08 15:20 潜摩羯阅读(291) 评论(0) 推荐(0) 编辑

hive的常用函数和建表语句

摘要：一、hive的基础建表语句 CREATE [external] TABLE [IF NOT EXISTS] table_name (--[external]建外部表，[IF NOT EXISTS]如果存在就不重新建表 id string, sfsb string )COMMENT 'emp' --这阅读全文

posted @ 2022-05-08 15:09 潜摩羯阅读(697) 评论(0) 推荐(0) 编辑

hive的基本了解

摘要：1、什么是Hive？ Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。叫做HSQL，或者HQL Hive利用HDFS，也就是分布式文件存储系统来存储数据，利用MapReduce查询数据，简称MR，java程序，书写的sql语句会转化成阅读全文

posted @ 2022-05-08 14:30 潜摩羯阅读(53) 评论(0) 推荐(0) 编辑

随笔分类 - hive

公告