2015 年 10月 14 日随笔档案 - 松伯

2015年10月14日

摘要： SparkSQL继承自Hive的接口，由于hive是基于MapReduce进行计算的，在计算过程中大量的中间数据要落地于磁盘，从而消耗了大量的I/O，降低了运行的效率，从而基于内存运算的SparkSQL应运而生。首先说下传统数据库的解析，传统数据库的解析过程是按Rusult、Data Sou... 阅读全文

posted @ 2015-10-14 00:28 松伯阅读(1190) 评论(0) 推荐(0) 编辑

spark transformation与action操作函数

摘要：一、Transformationmap(func) 返回一个新的分布式数据集，由每个原元素经过函数处理后的新元素组成filter(func) 返回一个新的数据集，经过fun函数处理后返回值为true的原元素组成flatMap(func) 类似于map,但每个输入元素会被映射为0个或多个输出元素map... 阅读全文

posted @ 2015-10-14 00:22 松伯阅读(473) 评论(0) 推荐(0) 编辑

spark基础练习（未完)

摘要： 1、filterval rdd = sc.parallelize(List(1,2,3,4,5))val mappedRDD = rdd.map(2*_)mappedRDD.collectval filteredRDD = mappedRdd.filter(_>4)filteredRDD.colle... 阅读全文

posted @ 2015-10-14 00:06 松伯阅读(451) 评论(0) 推荐(0) 编辑