摘要: scheduler:负责整体的Spark应用、任务调度的代码。 broadcast:Broadcast(广播变量)的实现代码 deploy:含有Spark部署与启动运行的代码。 common:不是一个文件夹,而是代表Spark通用的类和逻辑实现 metrics:运行时状态监控逻辑代码,Executor中含有Worker节点负责计算的逻辑代码。 partial:含有近似评估代码。 net... 阅读全文
posted @ 2016-01-20 14:23 yifan888 阅读(171) 评论(0) 推荐(0) 编辑
摘要: import org.apache.hadoop.fs.{Path, FileSystem}import org.apache.spark.SparkConfimport org.apache.spark.SparkContextclass WordCount {}/ 处理目录下每个文件,进行wo... 阅读全文
posted @ 2016-01-20 11:28 yifan888 阅读(738) 评论(0) 推荐(0) 编辑