RICH-ATONE

随笔分类 -  Hive

1 2 下一页

Hive常见时间日期函数的使用与问题整理
摘要:Hive常见时间日期函数的使用与问题整理 阅读全文

posted @ 2024-02-22 15:56 RICH-ATONE 阅读(25) 评论(0) 推荐(0) 编辑

Hive通过-f调用sql文件并进行传参
摘要:Hive通过-f调用sql文件并进行传参 test.sql 示例: select * from dwd.test where dt='${hiveconf:dt}' and gn='${hiveconf:gn}' limit 10 ; 传参示例: ~/bin/hive -hiveconf dt=20 阅读全文

posted @ 2024-01-19 14:01 RICH-ATONE 阅读(117) 评论(0) 推荐(0) 编辑

hive分桶优化
摘要:什么是分桶? 和分区一样,分桶也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式。 但和分区不同的是,分区是将表拆分到不同的子目录中进行存储,而分桶是将表拆分到不同文件中进行存储。 那什么是分桶呢?它按分桶键哈希取模的方式,将表中数据随机、均匀地分发到若干桶文件中。 比如,对表的ID字段进 阅读全文

posted @ 2022-09-06 17:52 RICH-ATONE 阅读(586) 评论(0) 推荐(0) 编辑

Hive中的文件存储格式TEXTFILE、SEQUENCEFILE、RCFILE、ORCFILE、Parquet 和 AVRO使用与区别详解
摘要:参考: https://blog.csdn.net/weixin_43230682/article/details/107185876 阅读全文

posted @ 2022-05-16 19:47 RICH-ATONE 阅读(133) 评论(0) 推荐(0) 编辑

Hive:如何解决NULL值引发的数据倾斜
摘要:实际业务中有些大量的null值或者一些无意义的数据参与到计算作业中,表中有大量的null值,如果表之间进行join操作,就会有shuffle产生,这样所有的null值都会被分配到一个reduce中,必然产生数据倾斜。 疑问:NULL值和需要匹配的字段根本就匹配不上,为什么会进入到同一个reduce? 阅读全文

posted @ 2022-05-10 16:26 RICH-ATONE 阅读(1238) 评论(0) 推荐(0) 编辑

Hive基础优化详解
摘要:参考: HIVE基础知识及优化(面试必备) Hive性能优化 阅读全文

posted @ 2022-03-20 21:21 RICH-ATONE 阅读(83) 评论(0) 推荐(0) 编辑

Hive是如何将hql语法转换成MR执行的
摘要:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能.说白了,hive就是MapReduce客户端,将用户编写的HQL语法转换成MR程序进行执行。那么,hive是如何实现将hql语法转换成Mr的呢? 如图中所示,总的来说,Hive是通过给用户提供的 阅读全文

posted @ 2021-12-31 17:14 RICH-ATONE 阅读(330) 评论(0) 推荐(0) 编辑

Hive执行报错org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.InterruptedException: sleep interrupted
摘要:报错日志如下:(肯定有时报错信息不准确,不能准确定位问题出现在哪里) org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.InterruptedException: sleep interrupted at org.ap 阅读全文

posted @ 2021-11-01 19:11 RICH-ATONE 阅读(2346) 评论(0) 推荐(0) 编辑

hive on spark运行时 ,读取不到hive元数据问题
摘要:部署Hive On Spark时spark读取Hive元数据报错: Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spar 阅读全文

posted @ 2021-10-13 15:31 RICH-ATONE 阅读(1149) 评论(0) 推荐(1) 编辑

hive解决小文件过多的问题
摘要:针对小文件问题,一般可以再采集端(flume)进行合并,后期的话可以针对如下方式进行解决: 相比map个数的控制复杂性,reduce个数的设定要相对简单多了,reduce的个数一般最后决定了输出文件的个数, 二者相等,如果想多输出文件的个数(这样文件变小,但有可能程序变慢),那么可以人为增加redu 阅读全文

posted @ 2021-08-26 15:58 RICH-ATONE 阅读(1466) 评论(0) 推荐(0) 编辑

Hadoop文件存储格式及Hive数据压缩
摘要:一、文件的存储格式 1.TEXTFILE 创建表时的默认文件格式,数据被存储成文本格式。文本文件可以被分割和并行处理,也可以使用压缩,比如GZip、LZO或者Snappy。然而大部分的压缩文件不支持分割和并行处理,会造成一个作业只有一个mapper去处理数据,使用压缩的文本文件要确保文件不要过大,一 阅读全文

posted @ 2021-08-11 18:51 RICH-ATONE 阅读(751) 评论(0) 推荐(1) 编辑

hive报错Exception in thread "main" java.lang.OutOfMemoryError: PermGen space
摘要:解决方法: 在hive/conf/hive-env.sh文件中,加入下面的内容,问题得以解决: export HADOOP_OPTS="$HADOOP_OPTS -XX:PermSize=512M -XX:MaxPermSize=1024M" Exception in thread "main" j 阅读全文

posted @ 2021-01-28 18:45 RICH-ATONE 阅读(686) 评论(0) 推荐(0) 编辑

经典的SparkSQL/Hive-SQL/MySQL面试-练习题
摘要:经典的SparkSQL/Hive-SQL/MySQL面试-练习题 阅读全文

posted @ 2021-01-15 18:12 RICH-ATONE 阅读(255) 评论(0) 推荐(0) 编辑

Hive升级步骤详解
摘要:HIVE升级: 1、停止Hive相关进程 ps -ef | grep hive | grep -v grep | awk '{print $2}' | xargs kill -9 2、hive元数据备份 方法一:mysqldump -htest-hadoop-2-21 -uroot -proot h 阅读全文

posted @ 2020-12-28 16:36 RICH-ATONE 阅读(637) 评论(0) 推荐(1) 编辑

Hive表设计压缩问题
摘要:对于压缩算法的选择,我们倾向于对不同场景选择不同的压缩算法。 数仓一般被分为三层:ODS层: 源数据层 , 主要和数据源打交道原始日志一般采用 textFile存储 ,我们可以创建临时外部表,location指定原始日志位置,可以查询导入到ODS层,存储格式, 一般采用:ORC + ZLIB (从文 阅读全文

posted @ 2020-12-28 15:12 RICH-ATONE 阅读(394) 评论(0) 推荐(1) 编辑

1 2 下一页

导航

统计信息

点击右上角即可分享
微信分享提示