摘要: 在Spark中,一个应用程序要想被执行,肯定要经过以下的步骤: 从这个路线得知,最终一个job是依赖于分布在集群不同节点中的task,通过并行或者并发的运行来完成真正的工作。由此可见,一个个的分布式的task才是Spark的真正执行者。下面先来张task运行框架整体的对Spark的task运行有个大 阅读全文
posted @ 2018-01-21 00:10 那一抹风 阅读(9264) 评论(0) 推荐(1) 编辑
摘要: 一个job的生命历程 dagScheduler.runJob //(1) --> submitJob ( eventProcessLoop.post(JobSubmitted,***) //(2) --> eventProcessLoop //(3) --> onReceive(event: DAG 阅读全文
posted @ 2018-01-21 00:06 那一抹风 阅读(1145) 评论(0) 推荐(0) 编辑
摘要: 版权声明:本文为博主原创文章,转载请注明出处。 Spark调优秘诀 1.诊断内存的消耗 在Spark应用程序中,内存都消耗在哪了? 1.每个Java对象都有一个包含该对象元数据的对象头,其大小是16个Byte。由于在写代码时候,可能会出现这种情况:对象头比对象本身占有的字节数更多,比如对象只有一个i 阅读全文
posted @ 2018-01-21 00:00 那一抹风 阅读(10696) 评论(1) 推荐(1) 编辑