骑着蜗牛追火车

导航

 

2020年5月28日

摘要: 1.DataSet相关概念 Dataset是一个分布式的数据集。Dataset是Spark 1.6开始新引入的一个接口,它结合了RDD API的很多优点(包括强类型,支持lambda表达式等),以及Spark SQL的优点(优化后的执行引擎)。Dataset可以通过JVM对象来构造,然后通过tran 阅读全文
posted @ 2020-05-28 23:13 骑着蜗牛追火车 阅读(1467) 评论(0) 推荐(0) 编辑
 
摘要: HDFS到HDFS过程 看看map 和flatmap的位置 Flatmap 和map 的定义 map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。 flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD 例子: val rdd = sc.parall 阅读全文
posted @ 2020-05-28 23:04 骑着蜗牛追火车 阅读(2744) 评论(0) 推荐(0) 编辑
 
摘要: Apache Spark Examples These examples give a quick overview of the Spark API. Spark is built on the concept of distributed datasets, which contain arbi 阅读全文
posted @ 2020-05-28 10:18 骑着蜗牛追火车 阅读(717) 评论(0) 推荐(0) 编辑