2021 年 8月 17 日随笔档案 - 老王不秃头

2021年8月17日

摘要： Flume+Kafka+SparkStreaming打造实时流处理框架 1-1 实时流处理产生背景时效性高，数据量大 1-2 实时流处理概述实时计算（秒,毫秒级别）流式计算（在不断产生的实时数据流计算）7*24 1-3 离线计算与实时计算的对比 1-3-1 数据来源离线：HDFS,历史数据，阅读全文

posted @ 2021-08-17 16:25 老王不秃头阅读(888) 评论(0) 推荐(0) 编辑

Flink

摘要： Flink 概述基于数据流的一个有状态的计算框架无界流：有开始无结束（流式处理）有界流：有开始有结束（批处理） spark streaming: 批处理为主，流式处理是批处理的一个特性（mini batch） Flink 流式为主，批处理是流式处理的一个特例 storm 流式处理 Flin 阅读全文

posted @ 2021-08-17 16:25 老王不秃头阅读(334) 评论(0) 推荐(0) 编辑

Scala

摘要： Scala 1.初识scalascala：面向对象，面向函数，静态类型语言可在scala中直接调用java的Api和方法，与java互通代码优雅，开发速度快，能融合到生态圈 java:public class HelloWord{ public static void main(String[] 阅读全文

posted @ 2021-08-17 16:23 老王不秃头阅读(554) 评论(0) 推荐(0) 编辑

Spark+sparkSql

摘要： Spark MapReduce的槽点 1.一个简单的WC程序，需要很多的java代码 1）自定义Mapper 2)自定义Reducer 3)通过Driver把Mapper和Reducer串起来 4）打包，上传到集群 5）在集群上提交WC程序一句话：就是会花费非常多的时间在非业务逻辑改动的工作上 2 阅读全文

posted @ 2021-08-17 16:23 老王不秃头阅读(399) 评论(0) 推荐(0) 编辑

大数据入门-Hadoop基础

摘要：大数据入门-Hadoop基础 1 大数据背景 1-1 大数据4V特性数据量 Volume 多样性，复杂性 Variety(结构化和非结构化数据) 基于高度分析的新价值 Value （价值密度的高低和数据总量是成反比的) 速度 Velocity 1-2 大数据带来的技术变革技术驱动：数据量大存储阅读全文

posted @ 2021-08-17 16:21 老王不秃头阅读(628) 评论(0) 推荐(0) 编辑

好学的小小白

公告