11 2022 档案

摘要:数据源读入数据之后,我们就可以使用各种转换算子,讲一个或者多个DataStream转换成为新的DataStream(一个Flink程序的核心就是所有的转换操作,他们决定了处理的业务逻辑) 基本的转换算子:map、filter、flatMap等 聚合算子:keyBy 简单聚合: sum():在输入流上 阅读全文
posted @ 2022-11-30 20:35 先生小凯 阅读(97) 评论(0) 推荐(0) 编辑
摘要:Flink可以从各种来源获取数据,构建DataStream进行转换处理,source就是我们整个处理程序的输入端 从kafka中读取数据 bject KafKaSourceClass { def main(args: Array[String]): Unit = { /** * 构建Flink环境 阅读全文
posted @ 2022-11-30 20:21 先生小凯 阅读(114) 评论(0) 推荐(0) 编辑
摘要:Flink运行架构 Flink 的运行时架构中,最重要的就是两大组件:作业管理器(JobManger)和任务管理器(TaskManager)。对于一个提交执行的作业,JobManager 是真正意义上的“管理者”(Master),负责管理调度,所以在不考虑高可用的情况下只能有一个;而 TaskMan 阅读全文
posted @ 2022-11-30 17:03 先生小凯 阅读(100) 评论(0) 推荐(0) 编辑
摘要:Flink的核心特性: 1、高吞吐,低延迟 2、结果的准确性,提供了事件时间和处理时间,对于乱序事件流仍然提供一致且准确地结果 3、精确一次(exactly-once)的状态一致性保证 4、可以连接到最常用的存储系统和分布式文件系统 5、高可用,本身高可用的设置,再加上从故障中快速恢复和动态扩展任务 阅读全文
posted @ 2022-11-30 14:27 先生小凯 阅读(166) 评论(0) 推荐(0) 编辑
摘要:将服务器的ACK在设置为-1,可以保证producer到server之间的数据不丢失 即at least once 。 将服务器的ACK级别设置为0,可以保证生产者每条消息只会被发送一次 即at most once。 at least once 可以保证数据不丢失 但是不能保证数据不重复,相对的 a 阅读全文
posted @ 2022-11-30 10:20 先生小凯 阅读(345) 评论(0) 推荐(0) 编辑
摘要:分区策略: 分区原因: 方便在集群中扩展,每个partition可以通过调整以适应他所在的机器,而一个topic又可以由多个partition组成,因此整个集群就可以适应任意大小的数据 可以提高并发 因为可以以partition为单位进行读写 分区原则: 将producer发送的数据封装成一个Pro 阅读全文
posted @ 2022-11-30 09:59 先生小凯 阅读(26) 评论(0) 推荐(0) 编辑
摘要:kafka是一个分布式的基于发布/订阅模式的消息队列,只要应用于大数据实时处理领域 消息队列的两种模式: 点对点模式(一对一 消费者主动拉取数据,消息收到后消息清除) 发布/订阅的模式(一对多 消费者消费数据后不会清除数据) kafka基础架构(去中心化) producer:消息生产者,就是向kaf 阅读全文
posted @ 2022-11-29 21:37 先生小凯 阅读(56) 评论(0) 推荐(0) 编辑
摘要:HDFS是一个分布式文件存储系统,适合一次写入,多次写出,且不支持文件修改 结构: NameNode(NN):就是master 他是一个管理者 1、管理HDFS的命名空间 2、配置副本策略 3、管理数据块映射信息 4、处理客户端读写请求 DataNode(DN):就是salve NameNode下达 阅读全文
posted @ 2022-11-28 21:58 先生小凯 阅读(145) 评论(0) 推荐(0) 编辑
摘要:MapReduce是一个分布式运算程序的编程框架,其核心功能是将用户编写的业务逻辑代码和自身的组件整合成 一个完整的分布式运算程序 并发运行在一个hadoop集群上 优点: 1、易于编程 实现一些简单的接口就可以实现一个分布式车程序 2、良好的扩展性 可以通过简单的扩充机器来扩展计算能力 3、高容错 阅读全文
posted @ 2022-11-28 21:52 先生小凯 阅读(105) 评论(0) 推荐(0) 编辑
摘要:Hadoop是一个支持海量数据的分布式存储和分布式计算的平台 包含: HDFS YARN MapReduce 分布式管理系统(HDFS) 主要就是把数据存放在多态服务器上 是MapReduce的基础 文件切分 文件存放在一个磁盘上效率是最低的 读取效率低 文件特别大会超出单击的存储范围 文件磁盘上以 阅读全文
posted @ 2022-11-28 21:41 先生小凯 阅读(28) 评论(0) 推荐(0) 编辑
摘要:机器学习 构建机器学习的第一步:数据特征工程,将数据转化成机器学习的模型 //构建向量 基础部分 Spark中一共有两类向量:稠密向量,稀疏向量 1 稠密向量 2 val denseVec: linalg.Vector = Vectors.dense(Array(1..0,2.0,3.0,4.0,5 阅读全文
posted @ 2022-11-25 21:11 先生小凯 阅读(118) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示