会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
On Big Data
'Where must we go... we who wander this Wasteland in search of our better selves?' -The First History Man
首页
新随笔
联系
订阅
管理
2016年11月24日
取出List中的某些元素,这些元素的下标是另外一个List的元素
摘要: val l = List(1, 2, 3, 4, 5, 6, 7, 8, 9) val i = List(2, 4, 5, 7) l.filter(e => i.contains(l.indexOf(e))) So cute, right? END
阅读全文
posted @ 2016-11-24 15:43 gOOner黑骑士
阅读(1936)
评论(0)
推荐(0)
2016年6月13日
在Spark应用程序中设置日志输出级别
摘要: 我们通常会使用IDE(例如Intellij IDEA)开发Spark应用,而程序调试运行时会在控制台中打印出所有的日志信息。它描述了(伪)集群运行、程序执行的所有行为。 在很多情况下,这些信息对于我们来说是无关紧要的,我们更关心的是最终结果,无论是正常输出还是异常停止。 幸运的是,我们可以通过log
阅读全文
posted @ 2016-06-13 15:38 gOOner黑骑士
阅读(13240)
评论(0)
推荐(0)
2016年1月18日
Spark SQL window functions遇到的问题
摘要: 在使用org.apache.spark.sql.functions中的Window functions过程中,遇到了几个棘手的问题,经过不断搜寻和多次试验,终于找到了解决方法。首先看例子:import org.apache.spark.rdd.RDDimport org.apache.spark.s...
阅读全文
posted @ 2016-01-18 19:20 gOOner黑骑士
阅读(9520)
评论(1)
推荐(0)
2015年10月23日
Spark History Server配置
摘要: Spark提供WebUI可以实时查看Application的运行状态。但是当你想用WebUI查看任意completed applications的运行历史记录时,可能会在浏览器中显示如下信息 这主要是由于没有设置eventLog.dir所导致的。提到eventLog.dir,就要说到Spark History Server,通过配置History Server,可以在application执行的...
阅读全文
posted @ 2015-10-23 12:42 gOOner黑骑士
阅读(691)
评论(0)
推荐(0)
2015年10月22日
Apache Spark-1.0.0浅析(十一):Shuffle过程
摘要: 一、Shuffle的产生Shuffle Dependency是划分stages的依据,由此判断是ShuffleMapStage或ResultStage,正如下所述* A Spark job consists of one or more stages. The very last stage in ...
阅读全文
posted @ 2015-10-22 20:29 gOOner黑骑士
阅读(900)
评论(1)
推荐(1)
2015年9月17日
RHEL存储扩容
摘要: 引子:公司服务器有多块硬盘,但安装系统时系统部只给挂载了一块硬盘,随着HDFS上数据越来越多,一块硬盘的容量已趋于饱和,急需扩充容量。HDFS的数据存放在/data/中,将另一块硬盘的容量全部扩充到这里:root用户1、首先查看/data所属文件系统df -h /data/2、查看现有硬盘选定其中之...
阅读全文
posted @ 2015-09-17 16:20 gOOner黑骑士
阅读(372)
评论(0)
推荐(1)
2015年8月30日
Apache Spark-1.0.0浅析(十):数据存储——读写操作
摘要: “RDD是由不同的partition组成的,transformation和action是在partition上面进行的;而在storage模块内部,RDD又被视为由不同的block组成,对于RDD的存取是以block为单位进行的,本质上partition和block是等价的,只是看待的角度不同。在S...
阅读全文
posted @ 2015-08-30 14:18 gOOner黑骑士
阅读(410)
评论(0)
推荐(0)
2015年8月26日
Apache Spark-1.0.0浅析(九):数据存储——启动通信
摘要: 主要组件:BlockManager、BlockManagerMaster、BlockManagerWorker、BlockManagerMasterActor、BlockManagerSlaveActor……存储模块相关的组件,不论是Driver还是Worker,都是在SparkEnv 中实例化的v...
阅读全文
posted @ 2015-08-26 22:16 gOOner黑骑士
阅读(266)
评论(0)
推荐(0)
2015年8月18日
大数据黑客马拉松(Big Data Hackathon)赛后小结
摘要: 上周末参加了IBM Analytics举办的“大数据黑客马拉松(Big Data Hackathon)北京站”比赛,4个人组队拿到了第一名,非常的开心,也非常的不容易,我们四个wesor像共事了很久一样,各司其职配合默契,拿下了最后的锦标。第一天9点到晚上11点多,本想熬夜可是受限于主办方场地,第二...
阅读全文
posted @ 2015-08-18 22:20 gOOner黑骑士
阅读(1026)
评论(0)
推荐(0)
2015年7月30日
Apache Spark-1.0.0浅析(八):资源调度——Akka通信建立
摘要: Spark使用Akka作为各种功能和组件之间的通信工具。同样,在资源调度过程中也使用其作为消息传递系统。之前,在分析了Apache Spark-1.0.0资源调度过程中,明确了主要消息的传递过程和引起的相关动作,本文主要分析Spark资源调度过程中所用到的Akka通信的初始化过程。(I)Job相关(...
阅读全文
posted @ 2015-07-30 17:10 gOOner黑骑士
阅读(1102)
评论(0)
推荐(0)
下一页
公告