-
Spark算子--leftOuterJoin和rightOuterJoin
摘要:转载请标明出处http://www.cnblogs.com/haozhengfei/p/cb71cd3ac5d7965a2c61891659264d54.html leftOuterJoin和rightOuterJoin--Transformation类算子 代码示例
阅读全文
-
Spark_总结七_troubleshooting
摘要:转载标明出处 http://www.cnblogs.com/haozhengfei/p/07ef4bda071b1519f404f26503fcba44.html Spark_总结七_troubleshooting 1.yarn-client模式引起网卡流量激增问题? 一个Driver和Execut
阅读全文
-
Spark算子--distinct
摘要:distinct--Transformation类算子 代码示例
阅读全文
-
Spark算子--coalesce和repartition
摘要:coalesce和repartition--Transformation类算子 代码示例
阅读全文
-
Spark算子--filter
摘要:filter--Transformation类算子 代码示例 result
阅读全文
-
Spark算子--join
摘要:join--Transformation类算子 代码示例 result
阅读全文
-
Spark算子--map和flatMap
摘要:map和flatMap--Transformation类算子 代码示例 <!--more--> result result
阅读全文
-
Spark算子--mapPartitions和mapPartitionsWithIndex
摘要:mapPartitions--Transformation类算子 代码示例 result mapPartitionsWithIndex--Transformation类算子 代码示例 result mapPartitionsWithIndex--Transformation类算子 代码示例 resu
阅读全文
-
Spark算子--reduceByKey
摘要:reduceByKey--Transformation类算子 代码示例 result
阅读全文
-
Spark性能调优之Shuffle调优
摘要:Spark性能调优之Shuffle调优 • Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存。 <!--more--> • shuffle过程中常出现的问题 常见问题一:reduce oom? 问题原因
阅读全文
-
Spark_总结五
摘要:转载请标明出处http://www.cnblogs.com/haozhengfei/p/e353daff460b01a5be13688fe1f8c952.html Spark_总结五 1.Storm 和 SparkStreaming区别 Storm 纯实时的流式处理,来一条数据就立即进行处理 Spa
阅读全文
-
Spark性能调优之解决数据倾斜
摘要:Spark性能调优之解决数据倾斜 数据倾斜七种解决方案 shuffle的过程最容易引起数据倾斜 1.使用Hive ETL预处理数据 <!--more--> • 方案适用场景:如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀(比如某个 key对应了100万数据,其他key才对应了1
阅读全文
-
Spark性能调优之代码方面的优化
摘要:Spark性能调优之代码方面的优化 1.避免创建重复的RDD 对性能没有问题,但会造成代码混乱 2.尽可能复用同一个RDD,减少产生RDD的个数 <!--more--> 3.对多次使用的RDD进行持久化(cache,persist,checkpoint) 如何选择一种最合适的持久化策略? 默认MEM
阅读全文
-
Spark性能调优之合理设置并行度
摘要:Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! <!--more--> 当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致
阅读全文
-
Spark性能调优之资源分配
摘要:Spark性能调优之资源分配 性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,<!--more--> 进行性能调优的时候,首先第一步,我觉得,就是要来调节
阅读全文
-
Spark性能调优之JVM调优
摘要:Spark性能调优之JVM调优 通过一张图让你明白以下四个问题 1.JVM GC机制,堆内存的组成 2.Spark的调优为什么会和JVM的调优会有关联?--因为Scala也是基于JVM运行的语言 3.Spark中OOM产生的原因 4.如何在JVM这个层面上来对Spark进行调优 补充: Spark程
阅读全文
-
Spark数据本地化-->如何达到性能调优的目的
摘要:Spark数据本地化-->如何达到性能调优的目的 1.Spark数据的本地化:移动计算,而不是移动数据 2.Spark中的数据本地化级别: TaskSetManager 的 Locality Levels 分为以下五个级别: PROCESS_LOCAL NODE_LOCAL NO_PREF RACK
阅读全文
-
Kafka集群的搭建
摘要:Kafka集群的搭建 node1 node2 node3<!--more--> kafka须用版本(kafka-0.8.2.2),否则不兼容spark1.6 1.启动zookeeper集群node1 node2 node3 zkServer.sh start zkServer.sh status 2
阅读全文
-
根据PV统计出前三的热门板块,并统计出热门板块下的用户数--方式一
摘要:根据PV统计出前三的热门板块,并统计出热门板块下的用户数--方式一 测试数据 java代码 1 package com.hzf.spark.study; 2 3 import java.util.ArrayList; 4 import java.util.Collections; 5 import
阅读全文
-
根据PV统计出前三的热门板块,并统计出热门板块下的用户数--方式二
摘要:根据PV统计出前三的热门板块,并统计出热门板块下的用户数--方式二 <!--more--> 测试数据 java代码 1 package com.hzf.spark.study; 2 3 import java.util.ArrayList; 4 import java.util.Collection
阅读全文
|