随笔分类 - Hadoop
介绍Hadoop的运行机制和资源调度
摘要:一、没有开通kerberos而使用kerberos方式连接报错 报错:Peer indicated failure: Unsupported mechanism type GSSAPI 这是因为hive所在集群已经关闭了kerberos,但是连接字符串还是采用kerberos方式就会爆此错误; 此时
阅读全文
摘要:一、切片与MapTask的关系 1、概述 大家要注意区分切片与切块的区别: 切块Block是HDFS物理上把数据分成一块一块的,默认是128M; 数据切片:只是在逻辑上对输入进行分片,并不会在磁盘上分成片进行存储;而是分成片对数据进行处理。 物理上HDFS会把数据进行切块存储,但是当进行数据处理时,
阅读全文
摘要:一、Hadoop数据压缩及其优缺点 1、压缩技术的好处与坏处 好处: 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度。 坏处: 由于使用数据时,需要先将数据解压,加重了CPU的负荷。 使用压缩的基本原则: 运算密集型的job,少用压缩
阅读全文
摘要:1、概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn的架构如下图所示: 从Yarn的架构图来看,他主要由ResourceManager、NodeManager、Appli
阅读全文