摘要:
今晚听了王家林老师的第14课spark RDD解密,课堂笔记如下:Spark是基于工作集的应用抽象,RDD:Resillient Distributed Dataset是基于工作集的,spark可以对结果重用。位置感知:spark比hadoop更精致。RDD是lazy的,是分布式函数式编程的抽象,R... 阅读全文
摘要:
昨晚听了王家林老师的第13课Spark内核架构解密,课堂笔记如下:executor中线程池并发执行和复用,Spark executor, backed by a threadpool to run tasks.默认一个work为一个Application只开启一个executor。一个worker里... 阅读全文