摘要: 1、为什么对文件进行压缩? 在Hadoop中,文件需要存储、传输、读取磁盘、写入磁盘等等操作,而文件的大小,直接决定了这些这些操作的速度。 2、压缩的好处和坏处 (1)好处: 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度 (2)坏处: 阅读全文
posted @ 2020-01-20 17:05 guoyu1 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 一、MR的shuffle流程。 1、什么是shuffle:mapreduce 主要分为map阶段和reduce阶段,map阶段主要是将从源加载过来的数据,转换为key value键值对。reduce阶段就是并行处理具有相同key的键值对,将其进行聚合处理,输出新的键值对作为结果。而为了保证reduc 阅读全文
posted @ 2020-01-20 16:17 guoyu1 阅读(452) 评论(0) 推荐(0) 编辑