上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 22 下一页

2018年8月14日

摘要: zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同,否则会抛出异常。 scala> val aa=sc.makeRDD(1 to 10) aa: org.apache.spark.rdd.RDD[Int] = Parallel 阅读全文

posted @ 2018-08-14 15:45 打杂滴 阅读(401) 评论(0) 推荐(0) 编辑

摘要: Spark中提供了通用接口来抽象每个RDD,这些接口包括: 1.分区信息 2.依赖关系 3.函数,基于父RDD计算方法 4.划分策略和数据位置的元数据 阅读全文

posted @ 2018-08-14 15:12 打杂滴 阅读(90) 评论(0) 推荐(0) 编辑


2018年8月13日

摘要: 分区是rdd的一个属性,每个分区是一个迭代器 分区器是决定数据数据如何分区 RDD划分成许多分区分布到集群的节点上,分区的多少涉及对这个RDD进行并行计算的粒度。用户可以获取分区数和设置分区数目,默认分区数为程序分配到的CPU核数。 spark中,RDD计算是以分区为单位的,而且计算函数都是在对迭代 阅读全文

posted @ 2018-08-13 14:35 打杂滴 阅读(203) 评论(0) 推荐(0) 编辑


2018年8月10日

摘要: filename=$(date "+%Y%m%d%H%M%S") //将type为list,键为bi0205导出文本,并保存到mysql导入导出目录redis-cli -h 服务器IP -p port -a username@password "bi0205" 1 10000000 >>/var/l 阅读全文

posted @ 2018-08-10 15:49 打杂滴 阅读(261) 评论(0) 推荐(0) 编辑


2018年8月9日

摘要: mapPartitions操作与 map类似,只不过映射的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器,如果映射过程需要频繁创建额外的对象,使用mapPartitions操作要比map操作效率高效许多。比如将RDD中的所有数据通过JDBC链接写入数据库,如果使用map函数,可能要为每个 阅读全文

posted @ 2018-08-09 17:43 打杂滴 阅读(448) 评论(0) 推荐(0) 编辑

摘要: scala> val personRDD=sc.textFile("/tmp/person.txt")personRDD: org.apache.spark.rdd.RDD[String] = /tmp/person.txt MapPartitionsRDD[39] at textFile at < 阅读全文

posted @ 2018-08-09 16:49 打杂滴 阅读(144) 评论(0) 推荐(0) 编辑


2018年8月3日

摘要: foreachPartition,在生产环境中,通常来说,都使用foreachPartition来写数据库的 使用批处理操作(一条SQL和多组参数) 发送一条SQL语句,发送一次 一下子就批量插入100万条数据。 用了foreachPartition算子之后,好处在哪里? 1、对于我们写的funct 阅读全文

posted @ 2018-08-03 16:42 打杂滴 阅读(2553) 评论(0) 推荐(0) 编辑

摘要: def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") var ipNum = 0L for (i <- 0 until fragments.length){ ipNum = fragments(i).toLong | ip 阅读全文

posted @ 2018-08-03 15:57 打杂滴 阅读(244) 评论(0) 推荐(0) 编辑


2018年8月2日

摘要: Shared Variables Spark does provide two limited types of shared variables for two common usage patterns: broadcast variables and accumulators. Broadca 阅读全文

posted @ 2018-08-02 16:47 打杂滴 阅读(159) 评论(0) 推荐(0) 编辑

摘要: RDD运行原理 1.创建 RDD 对象 2.DAGScheduler模块介入运算,计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG 3.每一个JOB被分为多个Stage,划分Stage的一个主要依据是当前计算因子的输入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间 阅读全文

posted @ 2018-08-02 15:20 打杂滴 阅读(134) 评论(0) 推荐(0) 编辑


上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 22 下一页

Copyright © 2024 打杂滴
Powered by .NET 8.0 on Kubernetes