摘要:
1、什么是Hive 1、hive简介 Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 2 Hive本质:将HQL转化成MapReduce程序 (1)Hive处理的数据存 阅读全文
摘要:
1、分布式安装部署 1、集群规划 在虚拟 hadoop103、hadoop104、hadoop105 三个节点上部署 Zookeeper; 2、解压安装 解压安装文件到指定路径 [hui@hadoop103 software]$ tar -zxvf zookeeper-3.4.10.tar.gz - 阅读全文
摘要:
1、Zookeeper 内部选举机制 半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。 Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通 阅读全文
摘要:
一、Zookeeper 概述 Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目; 1.1、工作机制 Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态 阅读全文
摘要:
如题:平台侧今天把新主机和经分库的网络打通了,下班前测试下数据出入是否正常; 测试数据出库时,一切正常,但是测试入库时报错了,发现是,当前登录用户和目标表不是同一用户,无权写入数据; 解决方法: GRANT update,select,insert,delete ON scott.temp_info 阅读全文
摘要:
1、Combiner 简介 Combiner是MR程序中Mapper和Reducer之外的一种组件。 Combiner组件的父类就是Reducer。 Combiner和Reducer的区别在于运行的位置; Combiner是在每一个MapTask所在的节点运行; Reducer是接收全局所有Mapp 阅读全文
摘要:
1、基本介绍 排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。对于MapTask,它会将 阅读全文
摘要:
1、Shuffle机制定义 Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle; 2、Partition 2.1、问题引入 要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区) 2.2、默认分区 public class 阅读全文
摘要:
1、Map Reduce 结构 一个完整的mapreduce程序在分布式运行时有三类实例进程: MRAppMaster:负责整个程序的过程调度及状态协调; MapTask:负责map阶段的整个数据处理流程; ReduceTask:负责reduce阶段的整个数据处理流程; 2、Map Reduce 工 阅读全文
摘要:
1、Hadoop 序列化简介 序列化:将内存中的对象转换成字节序列(或其它支持网络传输的数据),以便于存储到磁盘或网络传输, 反序列化:将收到的字节序列或者持久化在磁盘中的数据转换成内存中的对象; Hadoop 序列化特点: 紧凑:高效使用存储空间; 高效:读写数据额外开销小 可扩展:随着通信协议的 阅读全文