2017 年 7月 31 日随笔档案 - 江正军

2017年7月31日

摘要：文本中有如下内容：1 52 43 61 32 1现要求对文本行进行排序，第一列相同时，比较第二列Java版：package sparkcore.java;import java.io.Serializable;import scala.math.Ordered;/** * 自定义的二次排序key */public class SecondarySortKey implements Orde... 阅读全文

posted @ 2017-07-31 19:51 江正军阅读(850) 评论(0) 推荐(0) 编辑

ABAP技术总结

摘要： SAP ——ABAP/4 技术总结 V3.0 2014-10-14 --江正军 SAP ——ABAP/4 技术总结 V3.0 2014-10-14 --江正军 1. 基础... 1 1.1. 基本数据类型... 1 1.1.1. P类型(压缩型)数据... 1 1.2. TYPE、LIKE. 2 1 阅读全文

posted @ 2017-07-31 18:12 江正军阅读(167292) 评论(9) 推荐(20) 编辑

11、TopN实战

摘要： 1、Java版本： 1.1、取前3package sparkcore.java;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac... 阅读全文

posted @ 2017-07-31 18:03 江正军阅读(622) 评论(0) 推荐(0) 编辑

08、共享变量（Broadcast Variable和Accumulator）

摘要：共享变量工作原理Spark一个非常重要的特性就是共享变量。默认情况下，如果在一个算子的函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量，那么这种方式是做不到的。 Spark为此提供了两种共享变量，一种是Broadcast Variable（广播变量），另一种是Accumulator（累加变量）。... 阅读全文

posted @ 2017-07-31 12:46 江正军阅读(1844) 评论(0) 推荐(0) 编辑

09、高级编程之基于排序机制的wordcount程序

摘要： package sparkcore.java;import java.util.Arrays;import java.util.Iterator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import ... 阅读全文

posted @ 2017-07-31 12:46 江正军阅读(701) 评论(0) 推荐(0) 编辑

07、RDD持久化

摘要：为了避免多次计算同一个RDD（如上面的同一result RDD就调用了两次Action操作），可以让Spark对数据进行持久化。当我们让Spark持久化存储一个RDD时，计算出RDD的节点会分别保存它们所求出的分区数据。如果一个有持久化数据的节点发生故障，Spark会在需要用到缓存的数据时重算丢失的数据分区。Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时... 阅读全文

posted @ 2017-07-31 12:44 江正军阅读(957) 评论(0) 推荐(0) 编辑

06、action操作开发实战

摘要： 1、reduce：2、collect：3、count：4、take：5、saveAsTextFile：6、countByKey：7、foreach：package sparkcore.java;import java.util.Arrays;import java.util.List;import java.util.Map;import org.apache.spark.SparkConf;im... 阅读全文

posted @ 2017-07-31 12:43 江正军阅读(456) 评论(0) 推荐(0) 编辑

04、常用RDD操作整理

摘要：常用Transformation 注：某些函数只有PairRDD只有，而普通的RDD则没有，比如gropuByKey、reduceByKey、sortByKey、join、cogroup等函数要根据Key进行分组或直接操作 RDD基本转换： RDD[U] map(f: T => U) T：原RDD中元素类型 U：新RDD中元素类型 ... 阅读全文

posted @ 2017-07-31 12:42 江正军阅读(1716) 评论(0) 推荐(0) 编辑

江正军技术博客

——专注于JAVA\SCALA\ABAP\SAP\BI\HANA\HADOOP\SPARK 研究老老实实做人，踏踏实实做事！

公告

江正军技术博客

——专注于JAVA\SCALA\ABAP\SAP\BI\HANA\HADOOP\SPARK 研究 老老实实做人，踏踏实实做事！

公告

——专注于JAVA\SCALA\ABAP\SAP\BI\HANA\HADOOP\SPARK 研究老老实实做人，踏踏实实做事！