2016年1月17日
摘要: 今晚听了王家林老师的第14课spark RDD解密,课堂笔记如下:Spark是基于工作集的应用抽象,RDD:Resillient Distributed Dataset是基于工作集的,spark可以对结果重用。位置感知:spark比hadoop更精致。RDD是lazy的,是分布式函数式编程的抽象,R... 阅读全文
posted @ 2016-01-17 23:44 HaiziS 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 昨晚听了王家林老师的第13课Spark内核架构解密,课堂笔记如下:executor中线程池并发执行和复用,Spark executor, backed by a threadpool to run tasks.默认一个work为一个Application只开启一个executor。一个worker里... 阅读全文
posted @ 2016-01-17 14:41 HaiziS 阅读(432) 评论(0) 推荐(0) 编辑