03 2018 档案

摘要:spark streaming是建立在spark core之上的,也就说spark streaming任务最终执行还是依赖于RDD模型。在转化成最终的RDD模型执行前,spark streaming主要需要处理以下几个问题: a,每个batch的RDD是怎么根据用户的代码生成的(对应JobGener 阅读全文
posted @ 2018-03-29 19:21 超级核弹头 阅读(541) 评论(0) 推荐(0)
摘要:在spark内部,rpc可以用来实现不同组件(Driver, executor,client)之间的远程交互。而在同一组件内,spark还有事件监听机制,如spark中各种指标的采集主要就是通过事件监听机制获取的。另外,本文也会spark中metrics的采集过程做一个简要分析。 1,spark事件 阅读全文
posted @ 2018-03-15 19:09 超级核弹头 阅读(1458) 评论(0) 推荐(0)