03 2018 档案
摘要:spark streaming是建立在spark core之上的,也就说spark streaming任务最终执行还是依赖于RDD模型。在转化成最终的RDD模型执行前,spark streaming主要需要处理以下几个问题: a,每个batch的RDD是怎么根据用户的代码生成的(对应JobGener
阅读全文
摘要:在spark内部,rpc可以用来实现不同组件(Driver, executor,client)之间的远程交互。而在同一组件内,spark还有事件监听机制,如spark中各种指标的采集主要就是通过事件监听机制获取的。另外,本文也会spark中metrics的采集过程做一个简要分析。 1,spark事件
阅读全文