摘要:Hive通过-f调用sql文件并进行传参 test.sql 示例: select * from dwd.test where dt='${hiveconf:dt}' and gn='${hiveconf:gn}' limit 10 ; 传参示例: ~/bin/hive -hiveconf dt=20
阅读全文
摘要:什么是分桶? 和分区一样,分桶也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式。 但和分区不同的是,分区是将表拆分到不同的子目录中进行存储,而分桶是将表拆分到不同文件中进行存储。 那什么是分桶呢?它按分桶键哈希取模的方式,将表中数据随机、均匀地分发到若干桶文件中。 比如,对表的ID字段进
阅读全文
摘要:参考: https://blog.csdn.net/weixin_43230682/article/details/107185876
阅读全文
摘要:实际业务中有些大量的null值或者一些无意义的数据参与到计算作业中,表中有大量的null值,如果表之间进行join操作,就会有shuffle产生,这样所有的null值都会被分配到一个reduce中,必然产生数据倾斜。 疑问:NULL值和需要匹配的字段根本就匹配不上,为什么会进入到同一个reduce?
阅读全文
摘要:参考: HIVE基础知识及优化(面试必备) Hive性能优化
阅读全文
摘要:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能.说白了,hive就是MapReduce客户端,将用户编写的HQL语法转换成MR程序进行执行。那么,hive是如何实现将hql语法转换成Mr的呢? 如图中所示,总的来说,Hive是通过给用户提供的
阅读全文
摘要:报错日志如下:(肯定有时报错信息不准确,不能准确定位问题出现在哪里) org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.lang.InterruptedException: sleep interrupted at org.ap
阅读全文
摘要:部署Hive On Spark时spark读取Hive元数据报错: Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spar
阅读全文
摘要:针对小文件问题,一般可以再采集端(flume)进行合并,后期的话可以针对如下方式进行解决: 相比map个数的控制复杂性,reduce个数的设定要相对简单多了,reduce的个数一般最后决定了输出文件的个数, 二者相等,如果想多输出文件的个数(这样文件变小,但有可能程序变慢),那么可以人为增加redu
阅读全文
摘要:一、文件的存储格式 1.TEXTFILE 创建表时的默认文件格式,数据被存储成文本格式。文本文件可以被分割和并行处理,也可以使用压缩,比如GZip、LZO或者Snappy。然而大部分的压缩文件不支持分割和并行处理,会造成一个作业只有一个mapper去处理数据,使用压缩的文本文件要确保文件不要过大,一
阅读全文
摘要:解决方法: 在hive/conf/hive-env.sh文件中,加入下面的内容,问题得以解决: export HADOOP_OPTS="$HADOOP_OPTS -XX:PermSize=512M -XX:MaxPermSize=1024M" Exception in thread "main" j
阅读全文
摘要:经典的SparkSQL/Hive-SQL/MySQL面试-练习题
阅读全文
摘要:HIVE升级: 1、停止Hive相关进程 ps -ef | grep hive | grep -v grep | awk '{print $2}' | xargs kill -9 2、hive元数据备份 方法一:mysqldump -htest-hadoop-2-21 -uroot -proot h
阅读全文
摘要:对于压缩算法的选择,我们倾向于对不同场景选择不同的压缩算法。 数仓一般被分为三层:ODS层: 源数据层 , 主要和数据源打交道原始日志一般采用 textFile存储 ,我们可以创建临时外部表,location指定原始日志位置,可以查询导入到ODS层,存储格式, 一般采用:ORC + ZLIB (从文
阅读全文