上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 42 下一页
摘要: 原文链接:Storm和Spark Streaming框架对比 Storm和SparkStreaming两个都是分布式流处理的开源框架。但是这两者之间的区别还是很大的,正如你将要在下文看到的。处理模型以及延迟 虽然两框架都提供了可扩展性(scalability)和可容错性(fault toleran... 阅读全文
posted @ 2015-11-13 16:37 ~风轻云淡~ 阅读(1253) 评论(0) 推荐(0) 编辑
摘要: 原文链接:Spark RDD API扩展开发(1)Spark RDD API扩展开发(2):自定义RDD我们都知道,ApacheSpark内置了很多操作数据的API。但是很多时候,当我们在现实中开发应用程序的时候,我们需要解决现实中遇到的问题,而这些问题可能在Spark中没有相应的API提供,这时候... 阅读全文
posted @ 2015-11-13 16:20 ~风轻云淡~ 阅读(1527) 评论(0) 推荐(0) 编辑
摘要: 原文链接:【采集层】Kafka 与 Flume 如何选择采集层主要可以使用Flume, Kafka两种技术。Flume:Flume是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API.Kafka:Kafka是一个可持久化的分布式的消息队列。Kafka是一个非常通用的系统。你可以有许多... 阅读全文
posted @ 2015-11-13 15:53 ~风轻云淡~ 阅读(721) 评论(0) 推荐(0) 编辑
摘要: 原文链接:Spark Streaming中空batches处理的两种方法 SparkStreaming是近实时(near real time)的小批处理系统。对给定的时间间隔(interval),SparkStreaming生成新的batch并对它进行一些处理。每个batch中的数据都代表一个RDD... 阅读全文
posted @ 2015-11-13 15:41 ~风轻云淡~ 阅读(2224) 评论(0) 推荐(0) 编辑
摘要: 原文链接:在Spark中自定义Kryo序列化输入输出API在Spark中内置支持两种系列化格式:(1)、Java serialization;(2)、Kryo serialization。在默认情况下,Spark使用的是Java的ObjectOutputStream系列化框架,它支持所有继承java... 阅读全文
posted @ 2015-11-13 14:22 ~风轻云淡~ 阅读(2036) 评论(0) 推荐(0) 编辑
摘要: 原文链接:Spark Streaming性能调优详解 SparkStreaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然... 阅读全文
posted @ 2015-11-13 11:47 ~风轻云淡~ 阅读(11530) 评论(0) 推荐(1) 编辑
摘要: 原文链接:Spark应用程序运行的日志存在哪里在很多情况下,我们需要查看driver和executors在运行Spark应用程序时候产生的日志,这些日志对于我们调试和查找问题是很重要的。 Spark日志确切的存放路径和部署模式相关: (1)、如果是Spark Standalone模式,我们可以直... 阅读全文
posted @ 2015-11-13 11:20 ~风轻云淡~ 阅读(18403) 评论(0) 推荐(1) 编辑
摘要: 原文链接:在Spark中尽量少使用GroupByKey函数为什么建议尽量在Spark中少用GroupByKey,让我们看一下使用两种不同的方式去计算单词的个数,第一种方式使用reduceByKey;另外一种方式使用groupByKey,代码如下:01#User:过往记忆02#Date:2015-05... 阅读全文
posted @ 2015-11-13 11:07 ~风轻云淡~ 阅读(1846) 评论(0) 推荐(0) 编辑
摘要: 原文链接:使用Spark读写CSV格式文件CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存表格数据(数字和文本)。CSV文件由任意数目的记... 阅读全文
posted @ 2015-11-13 10:47 ~风轻云淡~ 阅读(38232) 评论(2) 推荐(0) 编辑
摘要: Apache Spark 1.3.0引入了Direct API,利用Kafka的低层次API从Kafka集群中读取数据,并且在Spark Streaming系统里面维护偏移量相关的信息,并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量,而Spark Streaming系统并没有将这个消费的偏移量发送到Zookeeper中,这将导致那些基于偏移量的Kafka集群监控软件(比如:Apache Kafka监控之Kafka Web Console、Apache Kafka监控之KafkaOffsetMonitor等)失效。本文就是基于为了解决这个问题,使得我们编写的Spark Streaming程序能够在每次接收到数据之后自动地更新Zookeeper中Kafka的偏移量。 阅读全文
posted @ 2015-11-13 10:38 ~风轻云淡~ 阅读(7668) 评论(0) 推荐(0) 编辑
上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 42 下一页