摘要:
shell是一种命令行解释器,用于接受应用程序或用户命令,调用操作系统内核 其次它还是一种编程语言,易编写,已调试,灵活性强 脚本解析器:sh、bash、./ sh本质上调用的是bash 使用./的话要给脚本赋予执行的权限 shell中的变量 系统变量:$HOME $SHELL $PWD $USER 阅读全文
摘要:
FTP是一种远程文件传输协议(vsftp),默认使用TCP协议的20,21端口与客户端进行连接 保证了数据的安全可靠性 20端口用于建立数据连接,并传输数据文件 21端口用于建立控制连接,并传输FTP命令 工作原理分为两种 1、主动模式:服务器主动发起数据连接 2、被动模式:服务器被动发起数据连接 阅读全文
摘要:
LVM是 Logical Volume Manager(逻辑卷管理)的简写,它是Linux环境下对磁盘分区进行管理的一种机制 分区->物理卷(pv)->卷组(vg)->逻辑卷(lv)->挂载(mount)->格式化(mkfs.ext4) 常用命令: 创建分区:fdisk /dev/sdb 创建物理卷 阅读全文
摘要:
Flink SQL 1、SQL-Client Flink提供的SQL客户端 准备工作 启动yarn-session yarn-session.sh -d 启动Flink SQL客户端 sql-client.sh 2、数据源 Kafka 准备工作 添加依赖到$FLINK_HOME/lib flink- 阅读全文
摘要:
数据源读入数据之后,我们就可以使用各种转换算子,讲一个或者多个DataStream转换成为新的DataStream(一个Flink程序的核心就是所有的转换操作,他们决定了处理的业务逻辑) 基本的转换算子:map、filter、flatMap等 聚合算子:keyBy 简单聚合: sum():在输入流上 阅读全文
摘要:
Flink可以从各种来源获取数据,构建DataStream进行转换处理,source就是我们整个处理程序的输入端 从kafka中读取数据 bject KafKaSourceClass { def main(args: Array[String]): Unit = { /** * 构建Flink环境 阅读全文
摘要:
Flink运行架构 Flink 的运行时架构中,最重要的就是两大组件:作业管理器(JobManger)和任务管理器(TaskManager)。对于一个提交执行的作业,JobManager 是真正意义上的“管理者”(Master),负责管理调度,所以在不考虑高可用的情况下只能有一个;而 TaskMan 阅读全文
摘要:
Flink的核心特性: 1、高吞吐,低延迟 2、结果的准确性,提供了事件时间和处理时间,对于乱序事件流仍然提供一致且准确地结果 3、精确一次(exactly-once)的状态一致性保证 4、可以连接到最常用的存储系统和分布式文件系统 5、高可用,本身高可用的设置,再加上从故障中快速恢复和动态扩展任务 阅读全文
摘要:
将服务器的ACK在设置为-1,可以保证producer到server之间的数据不丢失 即at least once 。 将服务器的ACK级别设置为0,可以保证生产者每条消息只会被发送一次 即at most once。 at least once 可以保证数据不丢失 但是不能保证数据不重复,相对的 a 阅读全文
摘要:
分区策略: 分区原因: 方便在集群中扩展,每个partition可以通过调整以适应他所在的机器,而一个topic又可以由多个partition组成,因此整个集群就可以适应任意大小的数据 可以提高并发 因为可以以partition为单位进行读写 分区原则: 将producer发送的数据封装成一个Pro 阅读全文