2014年11月23日

理解Spark的RDD

摘要: RDD是个抽象类,定义了诸如map()、reduce()等方法,但实际上继承RDD的派生类一般只要实现两个方法:def getPartitions: Array[Partition]def compute(thePart: Partition, context: TaskContext): Next... 阅读全文

posted @ 2014-11-23 20:57 白乔 阅读(230) 评论(0) 推荐(0) 编辑

spark1.1.0下使用SparkSQL

摘要: spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407安装了spark之后,可以在 shell中执行Spark SQL。Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询... 阅读全文

posted @ 2014-11-23 18:14 白乔 阅读(203) 评论(0) 推荐(0) 编辑

hadoop的mapreduce过程

摘要: http://www.cnblogs.com/sharpxiajun/p/3151395.html下面我从逻辑实体的角度讲解mapreduce运行机制,这些按照时间顺序包括:输入分片(input split)、map阶段、combiner阶段、shuffle阶段和reduce阶段。输入分片(inpu... 阅读全文

posted @ 2014-11-23 15:14 白乔 阅读(157) 评论(0) 推荐(0) 编辑

导航