01 2022 档案
摘要:HBase详解(04) - HBase Java API使用 环境准备 环境准备 新建Maven项目,在pom.xml中添加依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId
阅读全文
摘要:HBase详解(05) - HBase优化 整合Phoenix 集成Hive HBase优化 HBase优化 预分区 预分区 每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。那么依照这个原则,可
阅读全文
摘要:RegionServer 架构 RegionServer 架构 每个RegionServer可以服务于多个Region 每个RegionServer中有多个Store, 1个WAL和1个BlockCache 每个Store对应一个列族,包含MemStore和StoreFile StoreFile 将
阅读全文
摘要:HBase详解(02) - HBase-2.0.5安装 HBase安装环境准备 Zookeeper安装 Zookeeper安装参考《Zookeeper详解(02) - zookeeper安装部署-单机模式-集群模式》 启动Zookeeper集群 bin/zkServer.sh start Hadoo
阅读全文
摘要:HBase简介 HBase简介 定义:HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。 数据模型:逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional
阅读全文
摘要:Hive详解(06) - Hive调优实战 执行计划(Explain) 执行计划(Explain) 基本语法 EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query 案例实操 (1)查看下面这条语句的执行计划 没有生成MR任务的 hive (def
阅读全文
摘要:Hive详解(05) - 压缩和存储 Hadoop压缩配置 MR支持的压缩编码 压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否 压缩格式 算法 文
阅读全文
摘要:Hive详解(04) - hive函数的使用 系统内置函数 查看系统自带的函数 hive> show functions; 显示自带的函数的用法 hive> desc function upper; 详细显示自带的函数的用法 hive> desc function extended upper; 常
阅读全文
摘要:Hive详解(03) - hive基础使用 Hive数据类型 基本数据类型 对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。 集合数据类型 数据类型:STRUCT: 描述:和c语言中的s
阅读全文
摘要:Hive详解(02) - Hive 3.1.2安装 安装准备 Hive下载地址 Hive官网地址:http://hive.apache.org/ 官方文档查看地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted 安装包下
阅读全文
摘要:Hive详解(01) - 概念 hive简介 Hive:由Facebook开源用于解决海量结构化日志的数据统计工具,是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 Hive本质:将HQL转化成MapReduce程序 (1)Hive处理的数据存储在H
阅读全文