~风轻云淡~ - 博客园

2015年11月13日

摘要：原文链接：Storm和Spark Streaming框架对比　Storm和SparkStreaming两个都是分布式流处理的开源框架。但是这两者之间的区别还是很大的，正如你将要在下文看到的。处理模型以及延迟虽然两框架都提供了可扩展性(scalability)和可容错性(fault toleran... 阅读全文

posted @ 2015-11-13 16:37 ~风轻云淡~ 阅读(1253) 评论(0) 推荐(0) 编辑

Spark RDD API扩展开发

摘要：原文链接：Spark RDD API扩展开发(1)Spark RDD API扩展开发(2):自定义RDD我们都知道，ApacheSpark内置了很多操作数据的API。但是很多时候，当我们在现实中开发应用程序的时候，我们需要解决现实中遇到的问题，而这些问题可能在Spark中没有相应的API提供，这时候... 阅读全文

posted @ 2015-11-13 16:20 ~风轻云淡~ 阅读(1527) 评论(0) 推荐(0) 编辑

【采集层】Kafka 与 Flume 如何选择（转）

摘要：原文链接：【采集层】Kafka 与 Flume 如何选择采集层主要可以使用Flume, Kafka两种技术。Flume：Flume是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展API.Kafka：Kafka是一个可持久化的分布式的消息队列。Kafka是一个非常通用的系统。你可以有许多... 阅读全文

posted @ 2015-11-13 15:53 ~风轻云淡~ 阅读(721) 评论(0) 推荐(0) 编辑

Spark Streaming中空batches处理的两种方法（转）

摘要：原文链接：Spark Streaming中空batches处理的两种方法　SparkStreaming是近实时(near real time)的小批处理系统。对给定的时间间隔(interval)，SparkStreaming生成新的batch并对它进行一些处理。每个batch中的数据都代表一个RDD... 阅读全文

posted @ 2015-11-13 15:41 ~风轻云淡~ 阅读(2224) 评论(0) 推荐(0) 编辑

在Spark中自定义Kryo序列化输入输出API（转）

摘要：原文链接：在Spark中自定义Kryo序列化输入输出API在Spark中内置支持两种系列化格式：（1）、Java serialization；（2）、Kryo serialization。在默认情况下，Spark使用的是Java的ObjectOutputStream系列化框架，它支持所有继承java... 阅读全文

posted @ 2015-11-13 14:22 ~风轻云淡~ 阅读(2036) 评论(0) 推荐(0) 编辑

Spark Streaming性能调优详解（转）

摘要：原文链接：Spark Streaming性能调优详解　SparkStreaming提供了高效便捷的流式处理模式，但是在有些场景下，使用默认的配置达不到最优，甚至无法实时处理来自外部的数据，这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样，所以我们无法设置一些通用的配置（要不然... 阅读全文

posted @ 2015-11-13 11:47 ~风轻云淡~ 阅读(11530) 评论(0) 推荐(1) 编辑

Spark应用程序运行的日志存在哪里（转）

摘要：原文链接：Spark应用程序运行的日志存在哪里在很多情况下，我们需要查看driver和executors在运行Spark应用程序时候产生的日志，这些日志对于我们调试和查找问题是很重要的。 Spark日志确切的存放路径和部署模式相关：（1）、如果是Spark Standalone模式，我们可以直... 阅读全文

posted @ 2015-11-13 11:20 ~风轻云淡~ 阅读(18403) 评论(0) 推荐(1) 编辑

在Spark中尽量少使用GroupByKey函数（转）

摘要：原文链接：在Spark中尽量少使用GroupByKey函数为什么建议尽量在Spark中少用GroupByKey，让我们看一下使用两种不同的方式去计算单词的个数，第一种方式使用reduceByKey；另外一种方式使用groupByKey，代码如下：01#User:过往记忆02#Date:2015-05... 阅读全文

posted @ 2015-11-13 11:07 ~风轻云淡~ 阅读(1846) 评论(0) 推荐(0) 编辑

使用Spark读写CSV格式文件（转）

摘要：原文链接：使用Spark读写CSV格式文件CSV格式的文件也称为逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的），其文件以纯文本形式存表格数据（数字和文本）。CSV文件由任意数目的记... 阅读全文

posted @ 2015-11-13 10:47 ~风轻云淡~ 阅读(38232) 评论(2) 推荐(0) 编辑

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现（转）

摘要： Apache Spark 1.3.0引入了Direct API，利用Kafka的低层次API从Kafka集群中读取数据，并且在Spark Streaming系统里面维护偏移量相关的信息，并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量，而Spark Streaming系统并没有将这个消费的偏移量发送到Zookeeper中，这将导致那些基于偏移量的Kafka集群监控软件（比如：Apache Kafka监控之Kafka Web Console、Apache Kafka监控之KafkaOffsetMonitor等）失效。本文就是基于为了解决这个问题，使得我们编写的Spark Streaming程序能够在每次接收到数据之后自动地更新Zookeeper中Kafka的偏移量。阅读全文

posted @ 2015-11-13 10:38 ~风轻云淡~ 阅读(7668) 评论(0) 推荐(0) 编辑

公告