随笔分类 - Spark
Spark相关内容博客
摘要:1 增加参数 来控制消费次数 ,根据情况选择合适的参数即可,我这里修改为了10000. 不设置的话,默认是拉取全部的数据,有可能引起内存溢出或者任务失败等问题。 .config("spark.streaming.kafka.maxRatePerPartition", 10000)
阅读全文
摘要:1 原因是: 多个相同的Spark Streaming同时消费同一个topic,导致的offset问题。关掉多余的任务,就ok了。
阅读全文
摘要:1 示范 运行的jar包和传参放在最后,就可以了 运行的jar包和传参放在最后,就可以了
阅读全文
摘要:1 详细异常 2 查询Stack Overflow里面问答 https://stackoverflow.com/questions/54036028/spark-executor-heartbeat-timed-out-after-x-ms 3 解决 提交spark submit任务的时候,加大超时
阅读全文
摘要:查看日志:yarn logs -applicationId application_xxx 导入到外部文件 yarn logs -applicationId application_xxx >> temp.log 然后自己就可以用tail或者grep去查看日志了。
阅读全文
摘要:1 详细信息 User class threw exception: java.lang.IllegalStateException: Cannot call methods on a stopped SparkContext. This stopped SparkContext was creat
阅读全文
摘要:原文链接-https://www.cnblogs.com/0xcafedaddy/p/7625358.html 先来看一下在PairRDDFunctions.scala文件中reduceByKey和groupByKey的源码 通过源码可以发现: reduceByKey:reduceByKey会在结果
阅读全文
摘要:Receiver是使用Kafka的高层次Consumer API来实现的。 Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那些数据。 然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。 如果
阅读全文
摘要:1 涉及到的API 2 代码实现 定义ralation 定义Schema以及读取数据代码 类型转换类 3 依赖的pom文件配置 4测试代码以及测试文件数据 数据 参考文献:http://sparkdatasourceapi.blogspot.com/2016/10/spark-data-source
阅读全文
摘要:1 贴出完整日志信息 2 原因,原因是因为Spark提交任务到yarn集群,需要上传Hadoop相关yarn的jar包 3 解决办法,提前上传到HDFS集群,并且在Spark配置文件指定文件路径,就可以避免每次提交任务到Yarn都需要重复上传文件 4 配置步骤 Spark版本 spark-2.2.0
阅读全文
摘要:1 Local模式 本地模式 local模式 一台机器即可,开箱即用 不指定master,或者 --master local local[N] local[*] local模式下,使用多少个cores 2 standalone集群模式 spark自带的集群模式 Master Worker --mas
阅读全文