赤兔胭脂小吕布

2022年3月20日

摘要： Flink 基石 Flink Time 事件时间代码示例 package com.shujia.flink.core import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming 阅读全文

posted @ 2022-03-20 17:04 赤兔胭脂小吕布阅读(60) 评论(0) 推荐(0) 编辑

2022年3月19日

Flink 并行度、共享槽位、如何判断Flink需要使用多少资源、查看Flink需要处理的数据频率

摘要： Flink 并行度 package com.shujia.flink.core import org.apache.flink.streaming.api.datastream.DataStreamSink import org.apache.flink.streaming.api.scala._ 阅读全文

posted @ 2022-03-19 23:47 赤兔胭脂小吕布阅读(722) 评论(0) 推荐(0) 编辑

Flink 环境的搭建、Standallone Cluster 独立集群、Flink on Yarn、访问Flink web界面、Flink提交任务的三种方式、Flink读取HDFS上的数据、Flink集群的架构图、Flink on Yarn 图

摘要： Flink 环境的搭建 1、local 本地测试 2、Standallone Cluster 独立集群（可能用的上） 3、Flink on Yarn 推荐 Standallone Cluster 独立集群独立集群是不依赖hadoop的，所以可以先停掉 Hadoop 注意：独立集群的搭建需要配置 J 阅读全文

posted @ 2022-03-19 21:43 赤兔胭脂小吕布阅读(191) 评论(0) 推荐(0) 编辑

Flink Sink: 接收器

摘要： Flink Sink: 接收器 Flink 将转换计算后的数据发送的地点。 Flink 常见的 Sink 大概有如下几类： 1、写入文件、 2、打印出来、 3、写入 socket 、 4、自定义的 sink 。自定义的 sink 常见的有 Apache kafka、RabbitMQ、MySQL、E 阅读全文

posted @ 2022-03-19 00:41 赤兔胭脂小吕布阅读(83) 评论(0) 推荐(0) 编辑

2022年3月18日

DataStream常用算子

摘要： DataStream常用算子在 Flink 应用程序中，无论你的应用程序是批程序，还是流程序，都是上图这种模型，有数据源（source），有数据下游（sink），我们写的应用程序多是对数据源过来的数据做一系列操作，总结如下。 Source: 数据源，Flink 在流处理和批处理上的 source 阅读全文

posted @ 2022-03-18 23:56 赤兔胭脂小吕布阅读(110) 评论(0) 推荐(0) 编辑

Flink Source:数据源

摘要： Flink Source:数据源 Flink 在流处理和批处理上的 source 大概有 4 类： 1、基于本地集合的 source、 2、基于文件的 source、 3、基于网络套接字的 source、 4、自定义的 source。自定义的 source 常见的有 Apache kafka、Ama 阅读全文

posted @ 2022-03-18 22:16 赤兔胭脂小吕布阅读(153) 评论(0) 推荐(0) 编辑

Flink WordCount、打开Flink的日志输出、Spark WordCount 和 Flink WordCount 的运行流程对比

摘要： Flink WordCount 导入依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <flink.version>1.11.2</flink.version> <scala.bina 阅读全文

posted @ 2022-03-18 21:19 赤兔胭脂小吕布阅读(600) 评论(0) 推荐(0) 编辑

Flink简介

摘要： Flink 相当于是对spark的一个延伸我们在学习一个框架的时候，要记住关注GitHub GitHub: Where the world builds software · GitHub 和这个框架的官网流处理和批处理的区别无界流和有界流 Flink 提出无界流和有界流的目的是因为Flink 阅读全文

posted @ 2022-03-18 20:03 赤兔胭脂小吕布阅读(83) 评论(0) 推荐(0) 编辑

2022年3月17日

spark 数据倾斜优化

摘要： spark 数据倾斜优化数据倾斜产生的原因 1、数据分布不均，有的key很多，有的key很少 2、有shuffle的过程这两个原因也是解决数据倾斜的两个入手的方面数据倾斜七种解决方案其中 3、4、5、6 最重要 3和4 -- 聚合 5和6 -- 关联 1、使用Hive ETL预处理数据 2、阅读全文

posted @ 2022-03-17 22:54 赤兔胭脂小吕布阅读(134) 评论(0) 推荐(0) 编辑

spark 参数调优

摘要：参数调优 num-executors 一般为Task数的1/3或1/2左右，这个参数是必须要设置的参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数阅读全文

posted @ 2022-03-17 21:35 赤兔胭脂小吕布阅读(105) 评论(0) 推荐(0) 编辑

赤兔胭脂小吕布

天行健，君子以自强不息！

公告