摘要: 1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为PairRDD。PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。例如,PairRDD提供了reduceByKey()方法,可以分别规约每个键对应的数据,还有join()方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。2.创建Pair RDD 程序示例:... 阅读全文
posted @ 2015-11-30 20:08 ZHOU YANG 阅读(6225) 评论(0) 推荐(0) 编辑
摘要: 1.插入排序 //插入排序 void inssort(int a[],int n) { //一个元素天然就是排好序的,所以i从1开始循环 for (int i = 1; i < n; i++) { //后面的比前面相邻的元素小,交换这两个元素 for (int j = i; j > 0 && (a[ 阅读全文
posted @ 2015-11-30 18:57 ZHOU YANG 阅读(243) 评论(0) 推荐(0) 编辑
摘要: Given an unsorted array of integers, find the length of longest increasing subsequence.For example,Given[10, 9, 2, 5, 3, 7, 101, 18],The longest incre... 阅读全文
posted @ 2015-11-30 18:46 ZHOU YANG 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 1.spark在集群上运行应用的详细过程(1)用户通过spark-submit脚本提交应用(2)spark-submit脚本启动驱动器程序,调用用户定义的main()方法(3)驱动器程序与集群管理器通信,申请资源以启动执行器节点(4)集群管理器为驱动器程序启动执行器节点(5)驱动器进程执行用户应用中... 阅读全文
posted @ 2015-11-30 18:39 ZHOU YANG 阅读(9592) 评论(0) 推荐(0) 编辑
摘要: Givenn, generate all structurally uniqueBST's(binary search trees) that store values 1...n.For example,Givenn= 3, your program should return all 5 uni... 阅读全文
posted @ 2015-11-30 18:36 ZHOU YANG 阅读(186) 评论(0) 推荐(0) 编辑
摘要: Given a string of numbers and operators, return all possible results from computing all the different possible ways to group numbers and operators. Th... 阅读全文
posted @ 2015-11-30 18:36 ZHOU YANG 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 背景 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。 Spark基础 基石RDD spark的核心是RDD(弹性分布式数据集),一种通用的数据抽象,封装了基础的数据操作,如... 阅读全文
posted @ 2015-11-30 18:29 ZHOU YANG 阅读(967) 评论(0) 推荐(0) 编辑
摘要: 1.累加器 通常在向Spark传递函数时,比如使用map()函数或者用filter()传条件是,可以使用驱动器程序中定义的变量,但是集群中运行的每个人物都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。Spark的两个共享变量,累加器与广播变量,分别为结果聚合与广播这两种常见的通信模式突破了这一限制。 第一种共享变量,累加器,提供了将工作节点... 阅读全文
posted @ 2015-11-30 18:28 ZHOU YANG 阅读(1270) 评论(0) 推荐(0) 编辑
摘要: 1.文本文件(1)读取文本文件JavaRDD input =sc.textFile(dir)(2)保存文本文件result.saveAsTextFile(dir);2.Json (1)gson①Gson中需要创建JavaBean实体类来说明json的格式。以下是javaBean的示例程序,Person,其中有两个字段,分别代表姓名和年龄。public class Person { priva... 阅读全文
posted @ 2015-11-30 18:27 ZHOU YANG 阅读(6078) 评论(0) 推荐(0) 编辑
摘要: 1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合。在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含Python,Jav... 阅读全文
posted @ 2015-11-30 18:26 ZHOU YANG 阅读(13462) 评论(0) 推荐(2) 编辑