08 2024 档案
摘要:6.5840 Lab 2: Key/Value Server 1.Introduction 本次Lab将构建一个单机的键值服务器,该服务器保证即使存在网络故障,每个操作也都只执行一次,并且这些操作线性化执行。后续Lab中,将复制这样的服务器来处理服务器崩溃的情况。 键值服务器支持三种RPC(远程过程
阅读全文
摘要:一、非并行版本分析 1.非并行版本MapReduce流程 通过第一个参数,传入Map和Reduce 函数 之后的参数为待处理文件名 读取文件 调用Map函数,对文件内容进行处理,生成KV对 对KV对进行sort 按照Key进行分组,然后对每组数据调用Reduce 将结果写入文件 二、Lab思路 概述
阅读全文
摘要:Lab 1: MapReduce 目标:实现一个MapReduce系统。其中包含: worker进程:调用Map和Reduce程序并处理文件的读写 coordinator进程:负责将任务分发给worker并处理失败的worker。(注:本Lab使用coordinator而不是论文的master进行管
阅读全文
摘要:一. 介绍 很多业务逻辑很简单,主要难点是数据量太大,可使用分布式处理提高速度。 传统分布式程序,计算逻辑和分布式任务分发、故障恢复混在一起,原本简单的计算逻辑变得模糊不清,难以处理。 MapReduce将两者分离,任务分发,容错,恢复等逻辑由模型完成,程序员只需要专注计算逻辑。大大了简化代码架构,
阅读全文
摘要:MapReduce: Simplified Data Processing on Large Clusters(MapReduce: 简化大型集群下的数据处理) 作者:Jeffrey Dean and Sanjay Ghemawat Abstract(摘要) MapReduce是一个关于实施大型数据
阅读全文
摘要:Kafka问题集 1.设置auto.offset.reset Kafka默认读取模式是group-offsets,即从当前group上次读的停止位置继续 但是如果该group是第一次出现,kafka中没有他的offset,就会报错,需要设置auto.offset.reset参数 在Flink中,设置
阅读全文
摘要:1.安装 我们用docker进行安装 去Docker官网下载并安装Docker Desktop 去Docker Hub查看Kafka最新版本,我这里使用3.8.0,打开指令,输入以下安装指令 docker pull apache/kafka:3.8.0 下载完成后,启动kafka docker ru
阅读全文
摘要:CH-11 FlinkSQL 11.1 快速上手 引入依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-table-api-scala-bridge_2.12</artifactId> <version>${f
阅读全文
摘要:CH12 Flink CEP 12.1 基本概念 CEP:复杂事件处理(Complex Event Processing) 复杂事件处理就是在事件流里,检测以特定顺序先后发生的一组事件,进行统计或报警提示,比如“连续登录失败”,或者“订单支付超时”等。 总结起来,复杂事件处理的流程可以分成三个步骤:
阅读全文
摘要:一个Flink程序,就是对DataStream进行各种转换。基本上由以下几部分构成 接下来分别从执行环境、数据源、转换操作、输出四大部分,介绍DataStream API。 导入Scala DataStream Api import org.apache.flink.streaming.api.sc
阅读全文
摘要:CH-10 容错机制 Flink有一套完整的容错机制来保证故障后的恢复,其中最重要的是检查点。本章将深入了解检查点的原理和Flink的容错机制。 10.1CheckPoint 触发保存时机 周期性保存,间隔时间可以设置 val env = StreamExecutionEnvironment.get
阅读全文
摘要:CH-9 状态编程 9.1 状态简介 状态分为两种: 托管状态 由Flink统一管理,状态的存储、故障恢复等都由Flink实现,直接使用即可 原始状态 自定义,相当于开辟了一块内存,需要自己管理,实现状态的序列化和故障恢复。 状态类型包含值状态(ValueState)、列表状态(ListState)
阅读全文
摘要:CH-8 多流转换 多流转换分为两类:分流、合流 ,合流的算子比较丰富 8.1 分流 一般通过侧输出流实现 完整代码 8.2 合流 1.union() DataStream → DataStream 合并多个DataStream,要求所有stream内的元素类型相同 DataStreamSource
阅读全文
摘要:CH-6 时间与窗口 6.1 时间语义 事件时间(Event Time):数据产生的时间,默认使用 处理时间(Processing Time):数据到达窗口的时间 摄入时间:被Flink Source读入的时间 6.2 水位线 6.2.1 逻辑时钟 在使用事件时间时,Flink使用逻辑时钟对数据进行
阅读全文