2014 年 11月 23 日随笔档案 - 白乔

理解Spark的RDD

摘要： RDD是个抽象类，定义了诸如map()、reduce()等方法，但实际上继承RDD的派生类一般只要实现两个方法：def getPartitions: Array[Partition]def compute(thePart: Partition, context: TaskContext): Next... 阅读全文

posted @ 2014-11-23 20:57 白乔阅读(230) 评论(0) 推荐(0) 编辑

spark1.1.0下使用SparkSQL

摘要： spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407安装了spark之后，可以在 shell中执行Spark SQL。Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询... 阅读全文

posted @ 2014-11-23 18:14 白乔阅读(203) 评论(0) 推荐(0) 编辑

hadoop的mapreduce过程

摘要： http://www.cnblogs.com/sharpxiajun/p/3151395.html下面我从逻辑实体的角度讲解mapreduce运行机制，这些按照时间顺序包括：输入分片（input split）、map阶段、combiner阶段、shuffle阶段和reduce阶段。输入分片（inpu... 阅读全文

posted @ 2014-11-23 15:14 白乔阅读(157) 评论(0) 推荐(0) 编辑

理解Spark的RDD

spark1.1.0下使用SparkSQL

hadoop的mapreduce过程

导航

公告