摘要: Flume+Kafka+SparkStreaming打造实时流处理框架 1-1 实时流处理产生背景 时效性高,数据量大 1-2 实时流处理概述 实时计算(秒,毫秒级别) 流式计算(在不断产生的实时数据流计算)7*24 1-3 离线计算与实时计算的对比 1-3-1 数据来源 离线:HDFS,历史数据, 阅读全文
posted @ 2021-08-17 16:25 老王不秃头 阅读(888) 评论(0) 推荐(0) 编辑
摘要: Flink 概述 基于数据流的一个有状态的计算框架 无界流:有开始无结束 (流式处理) 有界流:有开始有结束 (批处理) spark streaming: 批处理为主,流式处理是批处理的一个特性(mini batch) Flink 流式为主,批处理是流式处理的一个特例 storm 流式处理 Flin 阅读全文
posted @ 2021-08-17 16:25 老王不秃头 阅读(334) 评论(0) 推荐(0) 编辑
摘要: Scala 1.初识scalascala:面向对象,面向函数,静态类型语言可在scala中直接调用java的Api和方法,与java互通 代码优雅,开发速度快,能融合到生态圈 java:public class HelloWord{ public static void main(String[] 阅读全文
posted @ 2021-08-17 16:23 老王不秃头 阅读(554) 评论(0) 推荐(0) 编辑
摘要: Spark MapReduce的槽点 1.一个简单的WC程序,需要很多的java代码 1)自定义Mapper 2)自定义Reducer 3)通过Driver把Mapper和Reducer串起来 4)打包,上传到集群 5)在集群上提交WC程序 一句话:就是会花费非常多的时间在非业务逻辑改动的工作上 2 阅读全文
posted @ 2021-08-17 16:23 老王不秃头 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 大数据入门-Hadoop基础 1 大数据背景 1-1 大数据4V特性 数据量 Volume 多样性,复杂性 Variety(结构化和非结构化数据) 基于高度分析的新价值 Value (价值密度的高低和数据总量是成反比的) 速度 Velocity 1-2 大数据带来的技术变革 技术驱动:数据量大 存储 阅读全文
posted @ 2021-08-17 16:21 老王不秃头 阅读(628) 评论(0) 推荐(0) 编辑