上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 16 下一页
摘要: Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。 ◆ 支持从多种数据源获取数据,包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、red 阅读全文
posted @ 2019-08-21 15:41 DiYong 阅读(176) 评论(0) 推荐(0) 编辑
摘要: SparkStreaming支持的业务场景 初识流计算例子 阅读全文
posted @ 2019-08-21 13:56 DiYong 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-08-19 20:32 DiYong 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-08-19 20:09 DiYong 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-08-19 20:07 DiYong 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-08-19 20:05 DiYong 阅读(253) 评论(0) 推荐(0) 编辑
摘要: MapReduce框架原理 3.1 InputFormat数据输入 3.1.1 切片与MapTask并行度决定机制 1.问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数 阅读全文
posted @ 2019-08-19 02:52 DiYong 阅读(224) 评论(0) 推荐(0) 编辑
摘要: Hadoop序列化 2.1 序列化概述 2.2 自定义bean对象实现序列化接口(Writable) 在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。 具体实现bean对象序列化步骤如下7步。 (1)必须实现Wri 阅读全文
posted @ 2019-08-19 02:50 DiYong 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 第1章 MapReduce概述 1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 MapReduce核心编程思想,如图所示。 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例 阅读全文
posted @ 2019-08-19 01:28 DiYong 阅读(506) 评论(0) 推荐(0) 编辑
摘要: <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTICE 阅读全文
posted @ 2019-08-19 01:10 DiYong 阅读(705) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 16 下一页