摘要: Hadoop2.4.0 重新编译 64 位本地库环境:虚拟机 VirtualBox,操作系统 64 位 CentOS 6.4 1、jdk环境 (export PATH=$JAVA_HOME/bin:$PATH $PATH放在后面)#export JAVA_HOME=/opt/jdk1.8.0_141 阅读全文
posted @ 2020-09-07 23:34 架构艺术 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 概述 只要是配置了正确的文件类型和压缩类型(比如Textfile+Gzip、SequenceFile+Snappy等),Hive都可以预期读取并解析数据,提供SQL功能。SequenceFile本身的结构已经设计了内容进行压缩。所以对于SequenceFile文件的压缩,并不是先生成Sequence 阅读全文
posted @ 2020-09-07 16:43 架构艺术 阅读(1375) 评论(0) 推荐(0) 编辑
摘要: Hive 0.14.0版本,建表管理 https://blog.csdn.net/Thomson617/article/details/86153924 分桶表 分桶对应hdfs目录下的一个个文件,它是将1张大表进行hash(表行索引多分桶数hash,hash值相同的到同一个文件中去),将一份数据拆 阅读全文
posted @ 2020-09-07 16:12 架构艺术 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 创建一个使用 Snappy 压缩的 ORC 格式的表 create table log_orc_snappy( track_time string, url string, session_id string, referer string, ip string, end_user_id strin 阅读全文
posted @ 2020-09-07 11:34 架构艺术 阅读(475) 评论(0) 推荐(0) 编辑
摘要: DROP TABLE IF EXISTS dm_xx.t_adl_daily_all_users_v1; USE dm_xx; CREATE TABLE IF NOT EXISTS dm_xx.t_adl_daily_all_users_v1( aa string COMMENT ' ' ,bb s 阅读全文
posted @ 2020-09-07 11:25 架构艺术 阅读(1180) 评论(0) 推荐(0) 编辑
摘要: Hive 支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET 1 默认存储格式:TEXTFILEHive 在创建表的时候的时候如果没有使用row format 或者 stored as 子句, 那么这个时候 Hive 所使用的默认存储格式就是TEXTFIL 阅读全文
posted @ 2020-09-07 11:23 架构艺术 阅读(596) 评论(0) 推荐(0) 编辑
摘要: 当 Hive 将输出写入到表中时,输出内容同样可以进行压缩。属性hive.exec.compress.output控制着这个功能。 用户可能需要保持默认设置文件中的默认值false,这样默认的输出就是非压缩的纯文本文件了。用户可以通过在查询语句或执行脚本中设置这个值为true,来在当前会话中开启输出 阅读全文
posted @ 2020-09-07 11:16 架构艺术 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 1 开启 Map 输出阶段压缩(中间压缩) 开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。具体配置如下: 步骤1: 开启 Hive 中间传输数据压缩功能 map 任务和 reduce 任务之间的数据的压缩. hive.exec.compress.i 阅读全文
posted @ 2020-09-07 11:00 架构艺术 阅读(309) 评论(0) 推荐(0) 编辑