随笔分类 - hive
大数据hive
摘要:1.order by col_list: 全局排序,默认为升序asc ,因此只有一个reducer,只有一个reduce task的结果, 比如文件名是000000_0,会导致当输入规模较大时,需要较长的计算时间。 如果指定了hive.mapred.mode=strict(默认值是nonstrict
阅读全文
摘要:•If函数: if if函数: 语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull)返回值: T说明: 当条件testCondition为TRUE时,返回valueTrue;否则返回valueFalseOrNull举例:hive
阅读全文
摘要:hive数据倾斜产⽣的原因数据倾斜的原因很⼤部分是join倾斜和聚合倾斜两⼤类⼀、Hive倾斜之group by聚合倾斜原因: 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 对⼀些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进⾏group by的时
阅读全文
摘要:分区表: create table fzname_p ( id int, name string, age int, tel string ) PARTITIONED BY (month string) 指定分区 ROW FORMAT DELIMITED FIELDS TERMINATED BY '
阅读全文
摘要:1、进⼊hive数据库:hive2、查看hive中的所有数据库:show databases;3、⽤default数据库:use default;4、查看所有的表:show tables;5、查询表结构:desc mytest(表名);6、查询表数据: select * from mytest(表名
阅读全文
摘要:一、hive的基础建表语句 CREATE [external] TABLE [IF NOT EXISTS] table_name (--[external]建外部表,[IF NOT EXISTS]如果存在就不重新建表 id string, sfsb string )COMMENT 'emp' --这
阅读全文
摘要:1、什么是Hive? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。叫做HSQL,或者HQL Hive利用HDFS,也就是分布式文件存储系统来存储数据,利用MapReduce查询数据,简称MR,java程序, 书写的sql语句会转化成
阅读全文