03 2016 档案

parquet 合并元数据
摘要:合并元数据:两个数据集,有着一部分相同的列,将他们合并成一个数据集时merge的过程。 合并的规则:相同的列,在新的数据集中,是通用的列, 各自不同的列,也作为新的数据集的列。 Spark将数据写入到HDFS中的parquet为例: 准备连个json文件(StudentInfo1.json,Stud 阅读全文

posted @ 2016-03-29 10:47 Creater 阅读(3451) 评论(0) 推荐(0)

常见的transformation 和 Action
摘要:常见transformation map 将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD filter 对RDD中每个元素进行判断,如果返回true则保留,返回false则剔除。 flatMap 与map类似,但是对每个元素都可以返回一个或多个新元素。 gropu 阅读全文

posted @ 2016-03-28 09:10 Creater 阅读(361) 评论(0) 推荐(0)

创建RDD的方式
摘要:JavaRDD<String> lines = sc.textFile("C://Users//Administrator//Desktop//spark.txt"); List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 阅读全文

posted @ 2016-03-21 21:23 Creater 阅读(317) 评论(0) 推荐(0)

第一个Spark程序
摘要:1、Java下Spark开发环境搭建(from http://www.cnblogs.com/eczhou/p/5216918.html) 1.1、jdk安装 安装oracle下的jdk,我安装的是jdk 1.7,安装完新建系统环境变量JAVA_HOME,变量值为“C:\Program Files\ 阅读全文

posted @ 2016-03-21 20:37 Creater 阅读(4197) 评论(0) 推荐(0)

导航