摘要: 转自:https://github.com/jacksu/utils4s/blob/master/spark-knowledge/md/spark%E5%86%85%E5%AD%98%E6%A6%82%E8%BF%B0.md 1.5以前 spark进程是以JVM进程运行的,可以通过-Xmx和-Xms 阅读全文
posted @ 2016-09-29 18:16 XGogo 阅读(1877) 评论(0) 推荐(0) 编辑
摘要: 来自: https://community.qingcloud.com/topic/344/spark-streaming使用kafka保证数据零丢失 spark streaming从1.2开始提供了数据的零丢失,想享受这个特性,需要满足如下条件: 数据输入需要可靠的sources和可靠的recei 阅读全文
posted @ 2016-09-29 17:58 XGogo 阅读(553) 评论(0) 推荐(0) 编辑
摘要: Kafka为一个分布式的消息队列,spark流操作kafka有两种方式: 一种是利用接收器(receiver)和kafaka的高层API实现。 一种是不利用接收器,直接用kafka底层的API来实现(spark1.3以后引入)。 Receiver方式 基于Receiver方式实现会利用Kakfa的高 阅读全文
posted @ 2016-09-29 16:37 XGogo 阅读(9186) 评论(3) 推荐(0) 编辑
摘要: 转http://hadoop1989.com/2016/03/15/KafkaStreaming/ 在Spark1.3之前,默认的Spark接收Kafka数据的方式是基于Receiver的,在这之后的版本里,推出了Direct Approach,现在整理一下两种方式的异同。 1. Receiver- 阅读全文
posted @ 2016-09-29 10:02 XGogo 阅读(1941) 评论(0) 推荐(0) 编辑
摘要: 转自:http://hadoop1989.com/2015/10/08/Spark-Configuration/ 一、Spark参数设置 二、查看Spark参数设置 三、Spark参数分类 四、Spark性能相关参数 一、Spark参数设置 Spark配置参数,一共有三种方法, 1、 在程序中,直接 阅读全文
posted @ 2016-09-29 10:01 XGogo 阅读(3283) 评论(0) 推荐(0) 编辑