ZHOU YANG

2015年11月30日

摘要： 1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为PairRDD。PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。例如，PairRDD提供了reduceByKey()方法，可以分别规约每个键对应的数据，还有join()方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。2.创建Pair RDD 程序示例：... 阅读全文

posted @ 2015-11-30 20:08 ZHOU YANG 阅读(6225) 评论(0) 推荐(0) 编辑

各种排序算法总结

摘要： 1.插入排序 //插入排序 void inssort(int a[],int n) { //一个元素天然就是排好序的，所以i从1开始循环 for (int i = 1; i < n; i++) { //后面的比前面相邻的元素小，交换这两个元素 for (int j = i; j > 0 && (a[ 阅读全文

posted @ 2015-11-30 18:57 ZHOU YANG 阅读(243) 评论(0) 推荐(0) 编辑

300.Longest Increasing Subsequence

摘要： Given an unsorted array of integers, find the length of longest increasing subsequence.For example,Given[10, 9, 2, 5, 3, 7, 101, 18],The longest incre... 阅读全文

posted @ 2015-11-30 18:46 ZHOU YANG 阅读(299) 评论(0) 推荐(0) 编辑

spark在集群上运行

摘要： 1.spark在集群上运行应用的详细过程（1）用户通过spark-submit脚本提交应用（2）spark-submit脚本启动驱动器程序，调用用户定义的main()方法（3）驱动器程序与集群管理器通信，申请资源以启动执行器节点（4）集群管理器为驱动器程序启动执行器节点（5）驱动器进程执行用户应用中... 阅读全文

posted @ 2015-11-30 18:39 ZHOU YANG 阅读(9592) 评论(0) 推荐(0) 编辑

95.Unique Binary Search Trees II

摘要： Givenn, generate all structurally uniqueBST's(binary search trees) that store values 1...n.For example,Givenn= 3, your program should return all 5 uni... 阅读全文

posted @ 2015-11-30 18:36 ZHOU YANG 阅读(186) 评论(0) 推荐(0) 编辑

241.Different Ways to Add Parentheses

摘要： Given a string of numbers and operators, return all possible results from computing all the different possible ways to group numbers and operators. Th... 阅读全文

posted @ 2015-11-30 18:36 ZHOU YANG 阅读(183) 评论(0) 推荐(0) 编辑

spark使用总结

摘要：背景使用spark开发已有几个月。相比于python/hive，scala/spark学习门槛较高。尤其记得刚开时，举步维艰，进展十分缓慢。不过谢天谢地，这段苦涩（bi）的日子过去了。忆苦思甜，为了避免项目组的其他同学走弯路，决定总结和梳理spark的使用经验。 Spark基础基石RDD spark的核心是RDD（弹性分布式数据集），一种通用的数据抽象，封装了基础的数据操作，如... 阅读全文

posted @ 2015-11-30 18:29 ZHOU YANG 阅读(967) 评论(0) 推荐(0) 编辑

Spark编程进阶

摘要： 1.累加器通常在向Spark传递函数时，比如使用map()函数或者用filter()传条件是，可以使用驱动器程序中定义的变量，但是集群中运行的每个人物都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。Spark的两个共享变量，累加器与广播变量，分别为结果聚合与广播这两种常见的通信模式突破了这一限制。第一种共享变量，累加器，提供了将工作节点... 阅读全文

posted @ 2015-11-30 18:28 ZHOU YANG 阅读(1270) 评论(0) 推荐(0) 编辑

spark中数据的读取与保存

摘要： 1.文本文件(1)读取文本文件JavaRDD input =sc.textFile(dir)(2)保存文本文件result.saveAsTextFile(dir);2.Json （1）gson①Gson中需要创建JavaBean实体类来说明json的格式。以下是javaBean的示例程序，Person，其中有两个字段，分别代表姓名和年龄。public class Person { priva... 阅读全文

posted @ 2015-11-30 18:27 ZHOU YANG 阅读(6078) 评论(0) 推荐(0) 编辑

spark 中的RDD编程 -以下基于Java api

摘要： 1.RDD介绍： RDD，弹性分布式数据集，即分布式的元素集合。在spark中，对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后，Spark会自动将RDD中的数据分发到集群中，并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含Python，Jav... 阅读全文

posted @ 2015-11-30 18:26 ZHOU YANG 阅读(13462) 评论(0) 推荐(2) 编辑

公告