2020 年 9月 7 日随笔档案 - 架构艺术

2020年9月7日

摘要： Hadoop2.4.0 重新编译 64 位本地库环境：虚拟机 VirtualBox，操作系统 64 位 CentOS 6.4 1、jdk环境（export PATH=$JAVA_HOME/bin:$PATH $PATH放在后面）#export JAVA_HOME=/opt/jdk1.8.0_141 阅读全文

posted @ 2020-09-07 23:34 架构艺术阅读(150) 评论(0) 推荐(0) 编辑

Hive支持的文件格式与压缩算法

摘要：概述只要是配置了正确的文件类型和压缩类型(比如Textfile+Gzip、SequenceFile+Snappy等)，Hive都可以预期读取并解析数据，提供SQL功能。SequenceFile本身的结构已经设计了内容进行压缩。所以对于SequenceFile文件的压缩，并不是先生成Sequence 阅读全文

posted @ 2020-09-07 16:43 架构艺术阅读(1447) 评论(0) 推荐(0) 编辑

hive表管理

摘要： Hive 0.14.0版本，建表管理 https://blog.csdn.net/Thomson617/article/details/86153924 分桶表分桶对应hdfs目录下的一个个文件,它是将1张大表进行hash(表行索引多分桶数hash,hash值相同的到同一个文件中去),将一份数据拆阅读全文

posted @ 2020-09-07 16:12 架构艺术阅读(306) 评论(0) 推荐(0) 编辑

5. hive ORC使用压缩

摘要：创建一个使用 Snappy 压缩的 ORC 格式的表 create table log_orc_snappy( track_time string, url string, session_id string, referer string, ip string, end_user_id strin 阅读全文

posted @ 2020-09-07 11:34 架构艺术阅读(482) 评论(0) 推荐(0) 编辑

4. hive parquet使用压缩

摘要： DROP TABLE IF EXISTS dm_xx.t_adl_daily_all_users_v1; USE dm_xx; CREATE TABLE IF NOT EXISTS dm_xx.t_adl_daily_all_users_v1( aa string COMMENT ' ' ,bb s 阅读全文

posted @ 2020-09-07 11:25 架构艺术阅读(1218) 评论(0) 推荐(0) 编辑

3. 文件存储格式

摘要： Hive 支持的存储数的格式主要有：TEXTFILE 、SEQUENCEFILE、ORC、PARQUET 1 默认存储格式:TEXTFILEHive 在创建表的时候的时候如果没有使用row format 或者 stored as 子句, 那么这个时候 Hive 所使用的默认存储格式就是TEXTFIL 阅读全文

posted @ 2020-09-07 11:23 架构艺术阅读(620) 评论(0) 推荐(0) 编辑

2. Reduce 输出压缩

摘要：当 Hive 将输出写入到表中时，输出内容同样可以进行压缩。属性hive.exec.compress.output控制着这个功能。用户可能需要保持默认设置文件中的默认值false，这样默认的输出就是非压缩的纯文本文件了。用户可以通过在查询语句或执行脚本中设置这个值为true，来在当前会话中开启输出阅读全文

posted @ 2020-09-07 11:16 架构艺术阅读(133) 评论(0) 推荐(0) 编辑

1. 开启 Map 输出阶段压缩(中间压缩)

摘要： 1 开启 Map 输出阶段压缩(中间压缩) 开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。具体配置如下：步骤1: 开启 Hive 中间传输数据压缩功能 map 任务和 reduce 任务之间的数据的压缩. hive.exec.compress.i 阅读全文

posted @ 2020-09-07 11:00 架构艺术阅读(316) 评论(0) 推荐(0) 编辑