Fork me on GitHub

随笔分类 -  大数据技术栈 / Hive

摘要:调优 Hive提供三种可以改变环境变量的方法,分别是: (1)修改${HIVE_HOME}/conf/hive-site.xml配置文件; 所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置进行修改,可以创建一个hive-site.xm 阅读全文
posted @ 2019-12-09 18:39 kris12 阅读(860) 评论(0) 推荐(0) 编辑
摘要:1. 与Hive的集成 Hive和Hbase在大数据架构中处在不同位置,Hive是一个构建在Hadoop基础之上的数据仓库,主要解决分布式存储的大数据处理和计算问题,Hive提供了类SQL语句,叫HiveQL, 通过它可以使用SQL查询存放在HDFS上的数据,sql语句最终被转化为Map/Reduc 阅读全文
posted @ 2019-09-20 10:07 kris12 阅读(1553) 评论(0) 推荐(0) 编辑
摘要:ETL清洗数据 导Jar包 <dependencies> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>RELEASE</version> </dependency> <dependency 阅读全文
posted @ 2019-02-21 23:29 kris12 阅读(991) 评论(0) 推荐(0) 编辑
摘要:一、Hadoop压缩配置 MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否 为了支 阅读全文
posted @ 2019-02-20 00:40 kris12 阅读(672) 评论(0) 推荐(0) 编辑
摘要:Hive中执行SQL语句时,出现类似于“Display all 469 possibilities? (y or n)”的错误, 根本原因是因为SQL语句中存在tab键导致,tab键在linux系统中是有特殊含义的。 查询 1. 基本查询 desc formatted stu_buck; desc 阅读全文
posted @ 2019-02-16 13:25 kris12 阅读(736) 评论(0) 推荐(0) 编辑
摘要:1. Hive数据类型 基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOL 阅读全文
posted @ 2019-02-16 13:24 kris12 阅读(488) 评论(0) 推荐(0) 编辑
摘要:Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是Ma 阅读全文
posted @ 2019-02-13 23:44 kris12 阅读(866) 评论(0) 推荐(0) 编辑

levels of contents