摘要:
6. Hive 查询 6.1 基本查询(Select ... From) 6.1.1 常用函数 求总行数(count): 求工资的最大值(max): 求工资的最小值(min): 求工资的总和(sum): 求工资的平均值(avg): 6.2 Where 语句 6.2.1 基础 where 查询 查询工 阅读全文
摘要:
3. Hive 数据类型 3.1 基本数据类型 Hive 数据类型 | Java 数据类型 | 长度 | | TINYINT | byte | 1 byte 有符号整数 | SMALINT | short | 2 byte 有符号整数 | INT | int | 4 byte 有符号整数 | BIG 阅读全文
摘要:
1. Hive 基本概念 1.1 Hive 介绍 Hive 由 Facebook 开源用于解决海量结构化日志的数据统计; Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 类SQL 查询功能; 本质是:将 HQL 转化成 MapReduce 程序 ; 1 阅读全文
摘要:
1. 应用场景 Zookeeper提供的服务包括:统一命名服务,统一配置管理,统一集群管理,服务器节点动态上下线,软负载均衡等。 2. 配置修改 3. 操作单节点 Zookeeper 4. Zookeeper Shell命令操作 5. 监听器原理 首先,需要有一个main()线程; 在main线程中 阅读全文
摘要:
1.HBase 架构 ============================================ 2. HBase Shell 操作 2.1. 基本操作 进入HBase客户端命令行: 查看帮助命令: 查看当前数据库中有哪些表: 2.2. 表的操作 3. HBase 数据结构 3.1 R 阅读全文
摘要:
1. 概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源; YARN 由ResourceManager,NodeManager, ApplicationMaster 和 Container 等组件构成; 2. YARN 工作机制 2.1 资源调度器 Hadoop 作业调度器主要有三 阅读全文
摘要:
1. Reduce Join工作原理 Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 2. Map Join 使用场景:适用于一张表十分小,一张表很大的场景; 在 Map 端缓存多 阅读全文
摘要:
1. 概述 Map 方法之后,Reduce 方法之前的数据处理过程称之为 Shuffle。 2. Partition 分区 需求:要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地,不同省份输出到不同文件中(分区)。 2.1 自定义 Partitioner 步骤 2.2 阅读全文