摘要:
在公司第二次写spark任务的时候,跑一小时的数据,大概4000万条客户端请求,因为使用了groupby统计客户端版本分布,结果任务先后出现了time out, out of memory异常(有时候成功,有时候失败)。 学习笔记: 他们都是要经过shuffle的,groupByKey在方法shuf 阅读全文
摘要:
1:解决分布式计算的通信问题(你怎么知道任务一有没有结束呢?) 2:解决了分布式计算资源调度问题(比如同时读取到一个文件) 3:解决了分布式计算容错问题(一个任务运行失败了,可以将这个任务的执行交给其他任务) 参考资料:MapReduce概述和优缺点。(感谢尚硅谷,感谢大海哥) https://ww 阅读全文