随笔分类 -  Spark

Spark相关内容博客
摘要:1 增加参数 来控制消费次数 ,根据情况选择合适的参数即可,我这里修改为了10000. 不设置的话,默认是拉取全部的数据,有可能引起内存溢出或者任务失败等问题。 .config("spark.streaming.kafka.maxRatePerPartition", 10000) 阅读全文
posted @ 2020-10-27 16:23 Questions张 阅读(1375) 评论(0) 推荐(0) 编辑
摘要:1 原因是: 多个相同的Spark Streaming同时消费同一个topic,导致的offset问题。关掉多余的任务,就ok了。 阅读全文
posted @ 2019-10-20 20:31 Questions张 阅读(4131) 评论(0) 推荐(0) 编辑
摘要:1 示范 运行的jar包和传参放在最后,就可以了 运行的jar包和传参放在最后,就可以了 阅读全文
posted @ 2019-06-09 11:23 Questions张 阅读(3937) 评论(0) 推荐(0) 编辑
摘要:1 详细异常 2 查询Stack Overflow里面问答 https://stackoverflow.com/questions/54036028/spark-executor-heartbeat-timed-out-after-x-ms 3 解决 提交spark submit任务的时候,加大超时 阅读全文
posted @ 2019-06-08 20:25 Questions张 阅读(4708) 评论(2) 推荐(0) 编辑
摘要:查看日志:yarn logs -applicationId application_xxx 导入到外部文件 yarn logs -applicationId application_xxx >> temp.log 然后自己就可以用tail或者grep去查看日志了。 阅读全文
posted @ 2019-06-06 11:28 Questions张 阅读(996) 评论(0) 推荐(0) 编辑
摘要:1 详细信息 User class threw exception: java.lang.IllegalStateException: Cannot call methods on a stopped SparkContext. This stopped SparkContext was creat 阅读全文
posted @ 2019-05-09 19:31 Questions张 阅读(4390) 评论(0) 推荐(0) 编辑
摘要:原文链接-https://www.cnblogs.com/0xcafedaddy/p/7625358.html 先来看一下在PairRDDFunctions.scala文件中reduceByKey和groupByKey的源码 通过源码可以发现: reduceByKey:reduceByKey会在结果 阅读全文
posted @ 2019-03-12 22:28 Questions张 阅读(253) 评论(0) 推荐(0) 编辑
摘要:Receiver是使用Kafka的高层次Consumer API来实现的。 Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那些数据。 然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。 如果 阅读全文
posted @ 2019-03-11 11:06 Questions张 阅读(1263) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-02-28 10:40 Questions张 阅读(732) 评论(0) 推荐(1) 编辑
摘要: 阅读全文
posted @ 2019-02-27 09:44 Questions张 阅读(413) 评论(0) 推荐(0) 编辑
摘要:1 涉及到的API 2 代码实现 定义ralation 定义Schema以及读取数据代码 类型转换类 3 依赖的pom文件配置 4测试代码以及测试文件数据 数据 参考文献:http://sparkdatasourceapi.blogspot.com/2016/10/spark-data-source 阅读全文
posted @ 2019-02-25 12:12 Questions张 阅读(2804) 评论(3) 推荐(1) 编辑
摘要: 阅读全文
posted @ 2019-02-25 07:58 Questions张 阅读(412) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-02-23 16:57 Questions张 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-02-20 16:40 Questions张 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-02-18 22:12 Questions张 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-02-17 12:10 Questions张 阅读(976) 评论(12) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-02-16 14:24 Questions张 阅读(670) 评论(1) 推荐(0) 编辑
摘要:1 贴出完整日志信息 2 原因,原因是因为Spark提交任务到yarn集群,需要上传Hadoop相关yarn的jar包 3 解决办法,提前上传到HDFS集群,并且在Spark配置文件指定文件路径,就可以避免每次提交任务到Yarn都需要重复上传文件 4 配置步骤 Spark版本 spark-2.2.0 阅读全文
posted @ 2019-01-28 17:02 Questions张 阅读(2695) 评论(0) 推荐(0) 编辑
摘要:1 Local模式 本地模式 local模式 一台机器即可,开箱即用 不指定master,或者 --master local local[N] local[*] local模式下,使用多少个cores 2 standalone集群模式 spark自带的集群模式 Master Worker --mas 阅读全文
posted @ 2019-01-28 16:47 Questions张 阅读(1260) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示