摘要:
一、MapReduce 慢的原因 MapReduce 程序效率的瓶颈在于两点: 1.1、计算机性能 CPU、内存、磁盘健康、网络 1.2、I/O 操作优化 (1)数据倾斜 (2)Map和Reduce数设置不合理 (3)Map运行时间太长,导致Reduce等待过久 (4)小文件过多 (5)大量的不可分 阅读全文
摘要:
一、Yarn基本架构 二、Yarn工作机制 三、作业提交全过程 3.1、作业提交过程之YARN 3.2、作业提交过程之MapReduce 四、资源调度器 4.1、先进先出调度器(FIFO) 4.2、容量调度器(Capacity Scheduler) 4.3、公平调度器(Fair Scheduler) 阅读全文
摘要:
一、数据压缩 1.1、概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和 阅读全文