Spark - 随笔分类 - Questions张

Spark Streaming消费kafka消息一次性积压太多内存溢出，调整消费批次参数控制

摘要：1 增加参数来控制消费次数，根据情况选择合适的参数即可，我这里修改为了10000. 不设置的话，默认是拉取全部的数据，有可能引起内存溢出或者任务失败等问题。 .config("spark.streaming.kafka.maxRatePerPartition", 10000) 阅读全文

posted @ 2020-10-27 16:23 Questions张阅读(1412) 评论(0) 推荐(0)

spark streaming消费kafka: Java .lang.IllegalStateException: No current assignment for partition

摘要：1 原因是：多个相同的Spark Streaming同时消费同一个topic，导致的offset问题。关掉多余的任务，就ok了。阅读全文

posted @ 2019-10-20 20:31 Questions张阅读(4193) 评论(0) 推荐(0)

Spark Submit给jar包中的main函数传递参数

摘要：1 示范运行的jar包和传参放在最后，就可以了运行的jar包和传参放在最后，就可以了阅读全文

posted @ 2019-06-09 11:23 Questions张阅读(3966) 评论(0) 推荐(0)

【异常】Reason: Executor heartbeat timed out after 140927 ms

摘要：1 详细异常 2 查询Stack Overflow里面问答 https://stackoverflow.com/questions/54036028/spark-executor-heartbeat-timed-out-after-x-ms 3 解决提交spark submit任务的时候，加大超时阅读全文

posted @ 2019-06-08 20:25 Questions张阅读(4818) 评论(2) 推荐(0)

Spark查询yarn任务日志

摘要：查看日志：yarn logs -applicationId application_xxx 导入到外部文件 yarn logs -applicationId application_xxx >> temp.log 然后自己就可以用tail或者grep去查看日志了。阅读全文

posted @ 2019-06-06 11:28 Questions张阅读(1029) 评论(0) 推荐(0)

异常-User class threw exception: java.lang.IllegalStateException: Cannot call methods on a stopped SparkContext.

摘要：1 详细信息 User class threw exception: java.lang.IllegalStateException: Cannot call methods on a stopped SparkContext. This stopped SparkContext was creat 阅读全文

posted @ 2019-05-09 19:31 Questions张阅读(4450) 评论(0) 推荐(0)

转载-reduceByKey和groupByKey的区别

摘要：原文链接-https://www.cnblogs.com/0xcafedaddy/p/7625358.html 先来看一下在PairRDDFunctions.scala文件中reduceByKey和groupByKey的源码通过源码可以发现: reduceByKey：reduceByKey会在结果阅读全文

posted @ 2019-03-12 22:28 Questions张阅读(265) 评论(0) 推荐(0)

Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别

摘要：Receiver是使用Kafka的高层次Consumer API来实现的。 Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果阅读全文

posted @ 2019-03-11 11:06 Questions张阅读(1286) 评论(0) 推荐(0)

Spark思维导图之Spark SQL

摘要：阅读全文

posted @ 2019-02-28 10:40 Questions张阅读(746) 评论(0) 推荐(1)

Spark思维导图之Spark Streaming

摘要：阅读全文

posted @ 2019-02-27 09:44 Questions张阅读(431) 评论(0) 推荐(0)

Spark SQL自定义外部数据源

摘要：1 涉及到的API 2 代码实现定义ralation 定义Schema以及读取数据代码类型转换类 3 依赖的pom文件配置 4测试代码以及测试文件数据数据参考文献:http://sparkdatasourceapi.blogspot.com/2016/10/spark-data-source 阅读全文

posted @ 2019-02-25 12:12 Questions张阅读(2838) 评论(3) 推荐(1)

Spark思维导图之性能优化

摘要：阅读全文

posted @ 2019-02-25 07:58 Questions张阅读(429) 评论(0) 推荐(0)

Spark思维导图之内存管理

摘要：阅读全文

posted @ 2019-02-23 16:57 Questions张阅读(242) 评论(0) 推荐(0)

Spark思维导图之资源调度

摘要：阅读全文

posted @ 2019-02-20 16:40 Questions张阅读(492) 评论(0) 推荐(0)

Spark思维导图之Shuffle

摘要：阅读全文

posted @ 2019-02-18 22:12 Questions张阅读(343) 评论(0) 推荐(0)

Spark思维导图之Spark RDD

摘要：阅读全文

posted @ 2019-02-17 12:10 Questions张阅读(995) 评论(12) 推荐(0)

Spark思维导图之Spark Core

摘要：阅读全文

posted @ 2019-02-16 14:24 Questions张阅读(687) 评论(1) 推荐(0)

Spark On Yarn报警告信息 WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.

摘要：1 贴出完整日志信息 2 原因，原因是因为Spark提交任务到yarn集群，需要上传Hadoop相关yarn的jar包 3 解决办法，提前上传到HDFS集群，并且在Spark配置文件指定文件路径，就可以避免每次提交任务到Yarn都需要重复上传文件 4 配置步骤 Spark版本 spark-2.2.0 阅读全文

posted @ 2019-01-28 17:02 Questions张阅读(2730) 评论(0) 推荐(0)

Spark的四种部署方式并对应四种提交方式

摘要：1 Local模式本地模式 local模式一台机器即可，开箱即用不指定master，或者 --master local local[N] local[*] local模式下，使用多少个cores 2 standalone集群模式 spark自带的集群模式 Master Worker --mas 阅读全文

posted @ 2019-01-28 16:47 Questions张阅读(1323) 评论(0) 推荐(0)

Questions张

随笔分类 - Spark

公告