2021 年 12月 21 日随笔档案 - 坚守梦想

2021年12月21日

摘要：在公司第二次写spark任务的时候，跑一小时的数据，大概4000万条客户端请求，因为使用了groupby统计客户端版本分布，结果任务先后出现了time out, out of memory异常（有时候成功，有时候失败）。学习笔记：他们都是要经过shuffle的，groupByKey在方法shuf 阅读全文

posted @ 2021-12-21 23:55 坚守梦想阅读(92) 评论(0) 推荐(0) 编辑

Hadoop MapReduce解决的问题

摘要： 1：解决分布式计算的通信问题（你怎么知道任务一有没有结束呢？） 2：解决了分布式计算资源调度问题（比如同时读取到一个文件） 3：解决了分布式计算容错问题（一个任务运行失败了，可以将这个任务的执行交给其他任务）参考资料：MapReduce概述和优缺点。（感谢尚硅谷，感谢大海哥） https://ww 阅读全文

posted @ 2021-12-21 23:41 坚守梦想阅读(267) 评论(0) 推荐(0) 编辑