摘要: shuffle发生在map方法之后,reduce方法之前 优化:由环形缓冲区默认的100m调到200m,将默认的80%的反向溢出调整到90%。 这样就会减少溢写的次数 对溢写的文件提前进行combiner,保证不影响最终逻辑前提,也可以调高combiner文件个数。可求和不可求均值。 归并后存储磁盘 阅读全文
posted @ 2021-08-13 15:51 海飏凨 阅读(116) 评论(0) 推荐(0) 编辑
摘要: HDFS:分布式文件系统,适合一次写入,多次读出场景,不适合文件的修改。 HDFS由NN、DN、Secondary NameNode、Client组成。 NN(NameNode) :管理HDFS的名称空间、配置副本策略、管理数据块(Block)的映射信息、处理客户端读写请求; DN(DataNode 阅读全文
posted @ 2021-08-13 15:50 海飏凨 阅读(157) 评论(0) 推荐(1) 编辑