摘要: val l = List(1, 2, 3, 4, 5, 6, 7, 8, 9) val i = List(2, 4, 5, 7) l.filter(e => i.contains(l.indexOf(e))) So cute, right? END 阅读全文
posted @ 2016-11-24 15:43 gOOner黑骑士 阅读(1911) 评论(0) 推荐(0) 编辑
摘要: 我们通常会使用IDE(例如Intellij IDEA)开发Spark应用,而程序调试运行时会在控制台中打印出所有的日志信息。它描述了(伪)集群运行、程序执行的所有行为。 在很多情况下,这些信息对于我们来说是无关紧要的,我们更关心的是最终结果,无论是正常输出还是异常停止。 幸运的是,我们可以通过log 阅读全文
posted @ 2016-06-13 15:38 gOOner黑骑士 阅读(13168) 评论(0) 推荐(0) 编辑
摘要: 在使用org.apache.spark.sql.functions中的Window functions过程中,遇到了几个棘手的问题,经过不断搜寻和多次试验,终于找到了解决方法。首先看例子:import org.apache.spark.rdd.RDDimport org.apache.spark.s... 阅读全文
posted @ 2016-01-18 19:20 gOOner黑骑士 阅读(9466) 评论(1) 推荐(0) 编辑
摘要: Spark提供WebUI可以实时查看Application的运行状态。但是当你想用WebUI查看任意completed applications的运行历史记录时,可能会在浏览器中显示如下信息 这主要是由于没有设置eventLog.dir所导致的。提到eventLog.dir,就要说到Spark History Server,通过配置History Server,可以在application执行的... 阅读全文
posted @ 2015-10-23 12:42 gOOner黑骑士 阅读(682) 评论(0) 推荐(0) 编辑
摘要: 一、Shuffle的产生Shuffle Dependency是划分stages的依据,由此判断是ShuffleMapStage或ResultStage,正如下所述* A Spark job consists of one or more stages. The very last stage in ... 阅读全文
posted @ 2015-10-22 20:29 gOOner黑骑士 阅读(883) 评论(1) 推荐(1) 编辑
摘要: 引子:公司服务器有多块硬盘,但安装系统时系统部只给挂载了一块硬盘,随着HDFS上数据越来越多,一块硬盘的容量已趋于饱和,急需扩充容量。HDFS的数据存放在/data/中,将另一块硬盘的容量全部扩充到这里:root用户1、首先查看/data所属文件系统df -h /data/2、查看现有硬盘选定其中之... 阅读全文
posted @ 2015-09-17 16:20 gOOner黑骑士 阅读(363) 评论(0) 推荐(1) 编辑
摘要: “RDD是由不同的partition组成的,transformation和action是在partition上面进行的;而在storage模块内部,RDD又被视为由不同的block组成,对于RDD的存取是以block为单位进行的,本质上partition和block是等价的,只是看待的角度不同。在S... 阅读全文
posted @ 2015-08-30 14:18 gOOner黑骑士 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 主要组件:BlockManager、BlockManagerMaster、BlockManagerWorker、BlockManagerMasterActor、BlockManagerSlaveActor……存储模块相关的组件,不论是Driver还是Worker,都是在SparkEnv 中实例化的v... 阅读全文
posted @ 2015-08-26 22:16 gOOner黑骑士 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 上周末参加了IBM Analytics举办的“大数据黑客马拉松(Big Data Hackathon)北京站”比赛,4个人组队拿到了第一名,非常的开心,也非常的不容易,我们四个wesor像共事了很久一样,各司其职配合默契,拿下了最后的锦标。第一天9点到晚上11点多,本想熬夜可是受限于主办方场地,第二... 阅读全文
posted @ 2015-08-18 22:20 gOOner黑骑士 阅读(1017) 评论(0) 推荐(0) 编辑
摘要: Spark使用Akka作为各种功能和组件之间的通信工具。同样,在资源调度过程中也使用其作为消息传递系统。之前,在分析了Apache Spark-1.0.0资源调度过程中,明确了主要消息的传递过程和引起的相关动作,本文主要分析Spark资源调度过程中所用到的Akka通信的初始化过程。(I)Job相关(... 阅读全文
posted @ 2015-07-30 17:10 gOOner黑骑士 阅读(1087) 评论(0) 推荐(0) 编辑