2019 年 8月 29 日随笔档案 - Sprio丨往昔

2019年8月29日

摘要：一、MapReduce 跑的慢的原因 1.Mapreduce 程序效率的瓶颈在于两点： 1）计算机性能 CPU、内存、磁盘健康、网络 2）I/O 操作优化（1）数据倾斜（2）map和reduce数设置不合理（3）map运行时间太长，导致reduce等待过久（4）小文件过多（5）大量的不可分阅读全文

posted @ 2019-08-29 19:56 Sprio丨往昔阅读(214) 评论(0) 推荐(0) 编辑

Hadoop——基础练习题

摘要：一、Wordcount练习 1.需求:通过hadoop分析文件中单词总数 1.要被分析的文件内容如图所示,每个单词之间以空格分开 2.实现的效果如图 2.代码实现 1.解决数据倾斜问题考虑到在机器运行过程中 Reduce阶段每个相同的Key会由一个ReduceTask来处理,而java共有十六万个阅读全文

posted @ 2019-08-29 19:41 Sprio丨往昔阅读(1456) 评论(0) 推荐(0) 编辑

Hadoop基础——HDFS、MapReduce、Yarn的运行原理和机制

摘要： Hadoop 的最基础Hdfs MapReduce Yarn组件的运行原理阅读全文

posted @ 2019-08-29 14:33 Sprio丨往昔阅读(562) 评论(0) 推荐(0) 编辑

Sprio丨往昔

欲带皇冠,必承其重

公告