oldsix666 - 博客园

2018年8月11日

spark编程模型（十二）之RDD键值转换操作（Transformation Operation）——partitionBy、mapValues、flatMapValues

摘要： partitionBy() 该函数根据partitioner函数生成新的ShuffleRDD，将原RDD重新分区 scala var rdd1 = sc.makeRDD(Array((1,"A"),(2,"B"),(3,"C"),(4,"D")),2) rdd1: org.apache.spark. 阅读全文

posted @ 2018-08-11 01:24 oldsix666 阅读(94) 评论(0) 推荐(0) 编辑

spark编程模型（十一）之RDD基础转换操作（Transformation Operation）——zipWithIndex、zipWithUniqueId

摘要： zipWithIndex() 该函数将RDD中的元素和这个元素在RDD中的ID（索引号）组合成键/值对 scala var rdd2 = sc.makeRDD(Seq("A","B","R","D","F"),2) rdd2: org.apache.spark.rdd.RDD[String] = P 阅读全文

posted @ 2018-08-11 01:24 oldsix666 阅读(144) 评论(0) 推荐(0) 编辑

spark编程模型（十）之RDD基础转换操作（Transformation Operation）——zip、zipPartitions

摘要： zip() zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常 scala var rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int 阅读全文

posted @ 2018-08-11 01:23 oldsix666 阅读(95) 评论(0) 推荐(0) 编辑

spark编程模型（九）之RDD基础转换操作（Transformation Operation）——mapPartitions、mapPartitionsWithIndex

摘要： mapPartitions(): 该函数和map函数类似，只不过映射函数的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器。如果在映射的过程中需要频繁创建额外的对象，使用mapPartitions要比map高效比如，将RDD中的所有数据通过JDBC连接写入数据库，如果使用map函数，可能阅读全文

posted @ 2018-08-11 01:22 oldsix666 阅读(94) 评论(0) 推荐(0) 编辑

spark编程模型（八）之RDD基础转换操作（Transformation Operation）——union、intersection、subtract

摘要： union() 将两个RDD进行合并，不去重 scala var rdd1 = sc.makeRDD(1 to 2,1) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[45] at makeRDD at :21 scala r 阅读全文

posted @ 2018-08-11 01:22 oldsix666 阅读(111) 评论(0) 推荐(0) 编辑

spark编程模型（七）之RDD基础转换操作（Transformation Operation）——randomSplit、glom

摘要： randomSplit(): 该函数根据weights权重，将一个RDD切分成多个RDD 该权重参数为一个Double数组，第二个参数为random的种子，基本可忽略 randomSplit的结果是一个RDD数组权重的总和加起来为1 scala val data = sc.makeRDD(1 to 阅读全文

posted @ 2018-08-11 01:21 oldsix666 阅读(202) 评论(0) 推荐(0) 编辑

Mac OS 安装 Hive

摘要： Mac OS 安装 Hive 一、环境说明操作系统：macOS High Sierra 10.13.2 hadoop版本：apache hadoop 2.6.0 mysql版本：mysql 5.7.22 hive版本：apache hive 1.2.2 二、安装步骤 1. 在mysql数据库创建h 阅读全文

posted @ 2018-08-11 01:21 oldsix666 阅读(325) 评论(0) 推荐(0) 编辑

spark编程模型（六）之RDD基础转换操作（Transformation Operation）——coalesce、repartition

摘要： coalesce() 该函数用于将RDD进行重分区，使用第一个参数为重分区的数目，第二个为是否进行shuffle，默认为false 只传入第一个参数，表示降低RDD中partitions(分区)数量为numPartitions，numPartitions要小于RDD原分区数量若传入的numPar 阅读全文

posted @ 2018-08-11 01:20 oldsix666 阅读(79) 评论(0) 推荐(0) 编辑

spark编程模型（五）之RDD基础转换操作（Transformation Operation）——map、flatMap、distinct、filter

摘要： map() 将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区 scala val data = sc.textFile("/data/spark_rdd.txt") data: org.apache.spark. 阅读全文

posted @ 2018-08-11 01:20 oldsix666 阅读(108) 评论(0) 推荐(0) 编辑

spark编程模型（四）之RDD创建操作（Creation Operation）

摘要： Spark 主要以一个弹性分布式数据集（RDD）的概念为中心，它是一个容错且可以执行并行操作的元素的集合。有两种方法可以创建 RDD : (1)在你的（驱动程序）中一个已存在的集合， (2)在外部存储系统中引用一个数据集，例如，一个共享文件系统，，`HBase Hadoop InputFo 阅读全文

posted @ 2018-08-11 01:19 oldsix666 阅读(488) 评论(0) 推荐(0) 编辑

一条五香

愿漂泊的人都有酒喝，愿孤独的人都会唱歌。

公告