gOOner黑骑士 - 博客园

2016年11月24日

摘要： val l = List(1, 2, 3, 4, 5, 6, 7, 8, 9) val i = List(2, 4, 5, 7) l.filter(e => i.contains(l.indexOf(e))) So cute, right? END 阅读全文

posted @ 2016-11-24 15:43 gOOner黑骑士阅读(1942) 评论(0) 推荐(0)

2016年6月13日

在Spark应用程序中设置日志输出级别

摘要：我们通常会使用IDE（例如Intellij IDEA）开发Spark应用，而程序调试运行时会在控制台中打印出所有的日志信息。它描述了（伪）集群运行、程序执行的所有行为。在很多情况下，这些信息对于我们来说是无关紧要的，我们更关心的是最终结果，无论是正常输出还是异常停止。幸运的是，我们可以通过log 阅读全文

posted @ 2016-06-13 15:38 gOOner黑骑士阅读(13264) 评论(0) 推荐(0)

2016年1月18日

Spark SQL window functions遇到的问题

摘要：在使用org.apache.spark.sql.functions中的Window functions过程中，遇到了几个棘手的问题，经过不断搜寻和多次试验，终于找到了解决方法。首先看例子：import org.apache.spark.rdd.RDDimport org.apache.spark.s... 阅读全文

posted @ 2016-01-18 19:20 gOOner黑骑士阅读(9552) 评论(1) 推荐(0)

2015年10月23日

Spark History Server配置

摘要： Spark提供WebUI可以实时查看Application的运行状态。但是当你想用WebUI查看任意completed applications的运行历史记录时，可能会在浏览器中显示如下信息这主要是由于没有设置eventLog.dir所导致的。提到eventLog.dir，就要说到Spark History Server，通过配置History Server，可以在application执行的... 阅读全文

posted @ 2015-10-23 12:42 gOOner黑骑士阅读(703) 评论(0) 推荐(0)

2015年10月22日

Apache Spark-1.0.0浅析（十一）：Shuffle过程

摘要：一、Shuffle的产生Shuffle Dependency是划分stages的依据，由此判断是ShuffleMapStage或ResultStage，正如下所述* A Spark job consists of one or more stages. The very last stage in ... 阅读全文

posted @ 2015-10-22 20:29 gOOner黑骑士阅读(910) 评论(1) 推荐(1)

2015年9月17日

RHEL存储扩容

摘要：引子：公司服务器有多块硬盘，但安装系统时系统部只给挂载了一块硬盘，随着HDFS上数据越来越多，一块硬盘的容量已趋于饱和，急需扩充容量。HDFS的数据存放在/data/中，将另一块硬盘的容量全部扩充到这里：root用户1、首先查看/data所属文件系统df -h /data/2、查看现有硬盘选定其中之... 阅读全文

posted @ 2015-09-17 16:20 gOOner黑骑士阅读(382) 评论(0) 推荐(1)

2015年8月30日

Apache Spark-1.0.0浅析（十）：数据存储——读写操作

摘要： “RDD是由不同的partition组成的，transformation和action是在partition上面进行的；而在storage模块内部，RDD又被视为由不同的block组成，对于RDD的存取是以block为单位进行的，本质上partition和block是等价的，只是看待的角度不同。在S... 阅读全文

posted @ 2015-08-30 14:18 gOOner黑骑士阅读(420) 评论(0) 推荐(0)

2015年8月26日

Apache Spark-1.0.0浅析（九）：数据存储——启动通信

摘要：主要组件：BlockManager、BlockManagerMaster、BlockManagerWorker、BlockManagerMasterActor、BlockManagerSlaveActor……存储模块相关的组件，不论是Driver还是Worker，都是在SparkEnv 中实例化的v... 阅读全文

posted @ 2015-08-26 22:16 gOOner黑骑士阅读(268) 评论(0) 推荐(0)

2015年8月18日

大数据黑客马拉松（Big Data Hackathon）赛后小结

摘要：上周末参加了IBM Analytics举办的“大数据黑客马拉松（Big Data Hackathon）北京站”比赛，4个人组队拿到了第一名，非常的开心，也非常的不容易，我们四个wesor像共事了很久一样，各司其职配合默契，拿下了最后的锦标。第一天9点到晚上11点多，本想熬夜可是受限于主办方场地，第二... 阅读全文

posted @ 2015-08-18 22:20 gOOner黑骑士阅读(1044) 评论(0) 推荐(0)

2015年7月30日

Apache Spark-1.0.0浅析（八）：资源调度——Akka通信建立

摘要： Spark使用Akka作为各种功能和组件之间的通信工具。同样，在资源调度过程中也使用其作为消息传递系统。之前，在分析了Apache Spark-1.0.0资源调度过程中，明确了主要消息的传递过程和引起的相关动作，本文主要分析Spark资源调度过程中所用到的Akka通信的初始化过程。（I）Job相关（... 阅读全文

posted @ 2015-07-30 17:10 gOOner黑骑士阅读(1109) 评论(0) 推荐(0)

On Big Data

'Where must we go... we who wander this Wasteland in search of our better selves?' -The First History Man

公告