摘要: partitionBy() 该函数根据partitioner函数生成新的ShuffleRDD,将原RDD重新分区 scala var rdd1 = sc.makeRDD(Array((1,"A"),(2,"B"),(3,"C"),(4,"D")),2) rdd1: org.apache.spark. 阅读全文
posted @ 2018-08-11 01:24 oldsix666 阅读(94) 评论(0) 推荐(0) 编辑
摘要: zipWithIndex() 该函数将RDD中的元素和这个元素在RDD中的ID(索引号)组合成键/值对 scala var rdd2 = sc.makeRDD(Seq("A","B","R","D","F"),2) rdd2: org.apache.spark.rdd.RDD[String] = P 阅读全文
posted @ 2018-08-11 01:24 oldsix666 阅读(144) 评论(0) 推荐(0) 编辑
摘要: zip() zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同,否则会抛出异常 scala var rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int 阅读全文
posted @ 2018-08-11 01:23 oldsix666 阅读(95) 评论(0) 推荐(0) 编辑
摘要: mapPartitions(): 该函数和map函数类似,只不过映射函数的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器。如果在映射的过程中需要频繁创建额外的对象,使用mapPartitions要比map高效 比如,将RDD中的所有数据通过JDBC连接写入数据库,如果使用map函数,可能 阅读全文
posted @ 2018-08-11 01:22 oldsix666 阅读(94) 评论(0) 推荐(0) 编辑
摘要: union() 将两个RDD进行合并,不去重 scala var rdd1 = sc.makeRDD(1 to 2,1) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[45] at makeRDD at :21 scala r 阅读全文
posted @ 2018-08-11 01:22 oldsix666 阅读(111) 评论(0) 推荐(0) 编辑
摘要: randomSplit(): 该函数根据weights权重,将一个RDD切分成多个RDD 该权重参数为一个Double数组,第二个参数为random的种子,基本可忽略 randomSplit的结果是一个RDD数组 权重的总和加起来为1 scala val data = sc.makeRDD(1 to 阅读全文
posted @ 2018-08-11 01:21 oldsix666 阅读(202) 评论(0) 推荐(0) 编辑
摘要: Mac OS 安装 Hive 一、环境说明 操作系统:macOS High Sierra 10.13.2 hadoop版本:apache hadoop 2.6.0 mysql版本:mysql 5.7.22 hive版本:apache hive 1.2.2 二、安装步骤 1. 在mysql数据库创建h 阅读全文
posted @ 2018-08-11 01:21 oldsix666 阅读(325) 评论(0) 推荐(0) 编辑
摘要: coalesce() 该函数用于将RDD进行重分区,使用 第一个参数为重分区的数目,第二个为是否进行shuffle,默认为false 只传入第一个参数,表示降低RDD中partitions(分区)数量为numPartitions,numPartitions要小于RDD原分区数量 若传入的numPar 阅读全文
posted @ 2018-08-11 01:20 oldsix666 阅读(79) 评论(0) 推荐(0) 编辑
摘要: map() 将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。 输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区 scala val data = sc.textFile("/data/spark_rdd.txt") data: org.apache.spark. 阅读全文
posted @ 2018-08-11 01:20 oldsix666 阅读(108) 评论(0) 推荐(0) 编辑
摘要: Spark 主要以一个 弹性分布式数据集(RDD)的概念为中心,它是一个容错且可以执行并行操作的元素的集合。有两种方法可以创建 RDD : (1)在你的 (驱动程序)中 一个已存在 的集合, (2)在外部存储系统中引用一个数据集,例如,一个共享文件系统, ,`HBase Hadoop InputFo 阅读全文
posted @ 2018-08-11 01:19 oldsix666 阅读(488) 评论(0) 推荐(0) 编辑