上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 26 下一页

2018年8月17日

摘要: 数据本地性 数据计算尽可能在数据所在的节点上运行,这样可以减少数据在网络上的传输,毕竟移动计算比移动数据代价小很多。进一步看,数据如果在运行节点的内存中,就能够进一步减少磁盘的I/O的传输。在spark中,数据本地性优先级从高到低为PROCESS_LOCAL>NODE_LOCAL>NO_PREF>R 阅读全文

posted @ 2018-08-17 13:26 打杂滴 阅读(4497) 评论(0) 推荐(0)


2018年8月16日

摘要: spark 运行架构基本由三部分组成,包括SparkContext(驱动程序),ClusterManager(集群资源管理器)和Executor(任务执行过程)组成。 其中SparkContext负责与ClusterManager通信,进行资源的申请.任务的分配.监控等,负责作业执行的声明周期管理。 阅读全文

posted @ 2018-08-16 10:51 打杂滴 阅读(835) 评论(0) 推荐(0)


2018年8月15日

摘要: spark运行结构图如下: spark基本概念 应用程序(application):用户编写的spark应用程序,包含驱动程序(Driver)和分布在集群中多个节点上运行的Executor代码,在执行过程中由一个或者多个作业组成。 驱动程序(dirver):spark中Driver即运行上述Appl 阅读全文

posted @ 2018-08-15 10:26 打杂滴 阅读(480) 评论(0) 推荐(0)


2018年8月14日

摘要: first count reduce collect take top takeOrdered aggregate fold lookup countByKey foreach foreachPartition sortBy 阅读全文

posted @ 2018-08-14 16:06 打杂滴 阅读(97) 评论(0) 推荐(0)

摘要: cache persist checkpoint 阅读全文

posted @ 2018-08-14 16:03 打杂滴 阅读(100) 评论(0) 推荐(0)

摘要: partitionBy mapValues flatMapValues combineByKey scala> aa.collect res77: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) scala> val mapRDD=aa.map(x 阅读全文

posted @ 2018-08-14 16:02 打杂滴 阅读(165) 评论(0) 推荐(0)

摘要: zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同,否则会抛出异常。 scala> val aa=sc.makeRDD(1 to 10) aa: org.apache.spark.rdd.RDD[Int] = Parallel 阅读全文

posted @ 2018-08-14 15:45 打杂滴 阅读(430) 评论(0) 推荐(0)

摘要: Spark中提供了通用接口来抽象每个RDD,这些接口包括: 1.分区信息 2.依赖关系 3.函数,基于父RDD计算方法 4.划分策略和数据位置的元数据 阅读全文

posted @ 2018-08-14 15:12 打杂滴 阅读(97) 评论(0) 推荐(0)


2018年8月13日

摘要: 分区是rdd的一个属性,每个分区是一个迭代器 分区器是决定数据数据如何分区 RDD划分成许多分区分布到集群的节点上,分区的多少涉及对这个RDD进行并行计算的粒度。用户可以获取分区数和设置分区数目,默认分区数为程序分配到的CPU核数。 spark中,RDD计算是以分区为单位的,而且计算函数都是在对迭代 阅读全文

posted @ 2018-08-13 14:35 打杂滴 阅读(226) 评论(0) 推荐(0)


2018年8月10日

摘要: filename=$(date "+%Y%m%d%H%M%S") //将type为list,键为bi0205导出文本,并保存到mysql导入导出目录redis-cli -h 服务器IP -p port -a username@password "bi0205" 1 10000000 >>/var/l 阅读全文

posted @ 2018-08-10 15:49 打杂滴 阅读(275) 评论(0) 推荐(0)


上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 26 下一页

博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3