04 2014 档案

摘要:Spark Streaming能够对流数据进行近乎实时的速度进行数据处理。采用了不同于一般的流式数据处理模型,该模型使得Spark Streaming有非常高的处理速度,与storm相比拥有更高的吞吐能力。 本篇简要分析Spark Streaming的处理模型,Spark Streaming系统的初始化过程,以及当接收到外部数据时后续的处理步骤。 阅读全文
posted @ 2014-04-25 21:22 徽沪一郎 阅读(7619) 评论(0) 推荐(1) 编辑
摘要:本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。 阅读全文
posted @ 2014-04-23 15:07 徽沪一郎 阅读(11585) 评论(0) 推荐(4) 编辑
摘要:本文以wordCount为例,详细说明spark创建和运行job的过程,涉及的内容有spark运行环境的搭建,如何将spark以local cluster模式运行,同时大体勾勒出job在提交过程中的函数调用路径。 阅读全文
posted @ 2014-04-21 17:33 徽沪一郎 阅读(15378) 评论(1) 推荐(1) 编辑
摘要:在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读Matei Zaharia做的Spark论文是一个非常不错的选择。 在阅读该论文的基础之上,再结合Spark作者在2012 Developer Meetup上做的演讲Introduction to Spark Internals,那么对于Spark的内部实现会有一个比较大概的了解。 有了上述的两篇文章奠定基础之后,再来进行源码阅读,那么就会知道分析的重点及难点。 阅读全文
posted @ 2014-04-15 11:36 徽沪一郎 阅读(24417) 评论(6) 推荐(12) 编辑
摘要:Scala越来越流行, Spark也愈来愈红火, 对spark的代码进行走读也成了一个很普遍的行为。不巧的是,当前java社区中很流行的ide如eclipse,netbeans对scala的支持都不算太好。在这种情况下不得不想到编辑器之神emacs,利用emacs+ensime来打造scala编程环境。 本文讲述的步骤全部是在arch linux上,其它发行版的linux视具体情况变通。 阅读全文
posted @ 2014-04-11 16:49 徽沪一郎 阅读(7416) 评论(2) 推荐(0) 编辑
摘要:简单介绍clojure的语法 阅读全文
posted @ 2014-04-10 21:29 徽沪一郎 阅读(1685) 评论(0) 推荐(0) 编辑