09 2024 档案

摘要:Flink中的状态 状态:在处理流数据时,算子(Operators)所维护的随着时间变化而持续或在特定时间点被查询的数据 无状态的算子任务:只需要观察每个独立事件,根据当前输入的数据直接转换输出结果 有状态的算子任务:除当前数据外,还需要一些其他数据来得到计算结果 状态的分类 算子状态(Operat 阅读全文
posted @ 2024-09-29 16:38 一年都在冬眠 阅读(37) 评论(0) 推荐(0) 编辑
摘要:CEP 概念 定义 复合事件处理(Complex Event Processing,CEP)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列, 阅读全文
posted @ 2024-09-29 15:54 一年都在冬眠 阅读(43) 评论(0) 推荐(0) 编辑
摘要:Table API和Flink SQL整体介绍 概念 Table API是一套内嵌在Java和Scala语言中的查询API,它允许我们以非常直观的方式,组合来自一些关系运算符的查询,比如select、filter和join Flink SQL,就是直接可以在代码中写SQL,来实现一些查询(Query 阅读全文
posted @ 2024-09-29 14:41 一年都在冬眠 阅读(81) 评论(0) 推荐(0) 编辑
摘要:DataStream流处理算子 Source算子(数据读入) Flink可以使用StreamExecutionEnvironment.addSource(source) 来为我们的程序添加数据来源 基于本地集合的source DataStream<String> words = env.fromEl 阅读全文
posted @ 2024-09-27 16:57 一年都在冬眠 阅读(30) 评论(0) 推荐(0) 编辑
摘要:YARN模式 概念 Flink提供了两种在yarn上运行的模式,分别为Session-Cluster和Per-Job-Cluster模式 Session-cluster模式 Session-Cluster模式需要先启动集群,然后再提交作业,接着会向yarn申请一块空间后,资源永远保持不变,如果资源满 阅读全文
posted @ 2024-09-27 14:44 一年都在冬眠 阅读(27) 评论(0) 推荐(0) 编辑
摘要:开发环境编写WordCount pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLS 阅读全文
posted @ 2024-09-27 10:17 一年都在冬眠 阅读(15) 评论(0) 推荐(0) 编辑
摘要:集群安装 Standalone模式 安装 解压缩 [user@hadoop102 software]$ tar -zxvf flink-1.10.1-bin-scala_2.12.tgz -C /opt/module/ 修改flink/conf/flink-conf.yaml文件 jobmanage 阅读全文
posted @ 2024-09-26 13:50 一年都在冬眠 阅读(85) 评论(0) 推荐(0) 编辑
摘要:Flink概述 Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算 Flink特点 事件驱动(Event-driven) 事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作 比较典型的就是以kafka 阅读全文
posted @ 2024-09-25 14:49 一年都在冬眠 阅读(15) 评论(0) 推荐(0) 编辑
摘要:通用的加载和保存方式 这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL默认读取和保存的文件格式为parque 1. 加载数据 spark.read.load是加载数据的通用方法,支持的数据源格式: scala> spark.read. csv jdbc lo 阅读全文
posted @ 2024-09-24 17:27 一年都在冬眠 阅读(51) 评论(0) 推荐(0) 编辑
摘要:DataSet DataSet是具有强类型的数据集合,需要提供对应的类型信息 1. 创建DataSet 使用样例类序列创建DataSet scala> case class person(id:Int,name:String,age:Int) defined class person scala> 阅读全文
posted @ 2024-09-24 16:43 一年都在冬眠 阅读(27) 评论(0) 推荐(0) 编辑
摘要:DataFrame Spark SQL的DataFrame API允许我们使用DataFrame而不用必须去注册临时表或者生成SQL表达式,DataFrame API既有transformation操作也有action操作 1. 创建DataFrame 从Spark数据源进行创建 启动Spark S 阅读全文
posted @ 2024-09-24 15:55 一年都在冬眠 阅读(52) 评论(0) 推荐(0) 编辑
摘要:概述 Hive是将SQL转为MapReduce SparkSQL可以理解成是将SQL解析成:“RDD+优化”再执行 SparkSQL可以简化RDD的开发,提高开发效率,且执行效率非常快 Spark SQL为了简化RDD的开发,提高开发效率,提供了2个编程抽象,DataFrame和DataSet,类似 阅读全文
posted @ 2024-09-24 09:18 一年都在冬眠 阅读(101) 评论(0) 推荐(0) 编辑
摘要:运行架构 Spark框架的核心是一个计算引擎,采用了标准master-slave的结构 如图展示了一个Spark执行时的基本结构,Driver表示master,负责管理整个集群中的作业任务调度,Executor是slave,负责实际执行任务 核心组件 1. Driver Spark驱动器节点,用于执 阅读全文
posted @ 2024-09-23 17:38 一年都在冬眠 阅读(69) 评论(0) 推荐(0) 编辑
摘要:Yarn模式 1、解压缩文件 [user@hadoop102 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module [user@hadoop102 software]$ cd /opt/module [user@hadoo 阅读全文
posted @ 2024-09-23 16:44 一年都在冬眠 阅读(15) 评论(0) 推荐(0) 编辑
摘要:Local模式 不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等 在IDEA中运行代码的环境称之为开发环境 1、解压缩文件 将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩,放置在指定位置,路径中不要包含中文或空格 压缩文 阅读全文
posted @ 2024-09-23 11:23 一年都在冬眠 阅读(54) 评论(0) 推荐(0) 编辑
摘要:WordCount 课程学习基于scala语言,首先确保安装scala插件 增加依赖关系 修改Maven项目中的POM文件,增加Spark框架的依赖关系 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifact 阅读全文
posted @ 2024-09-20 17:00 一年都在冬眠 阅读(41) 评论(0) 推荐(0) 编辑
摘要:RDD详解 RDD持久化/缓存 某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存 val rdd1 = sc.textFile("hdfs://node01:8020/words.txt") val rdd2 = rdd1.flat 阅读全文
posted @ 2024-09-20 14:52 一年都在冬眠 阅读(22) 评论(0) 推荐(0) 编辑
摘要:RDD详解 前提:MapReduce框架采用非循环式的数据流模型,把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销,且这些框架只能支持一些特定的计算模式(map/reduce),并没有提供一种通用的数据抽象,因此出现了RDD这个概念 概念 RDD(Resilient Distr 阅读全文
posted @ 2024-09-20 14:00 一年都在冬眠 阅读(83) 评论(0) 推荐(0) 编辑
摘要:基本概念 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎 Spark vs Hadoop Spark和Hadoop的根本差异是多个作业之间的数据通信问题:Spark多个作业之间数据通信是基于内存,而Hadoop是基于磁盘 Hadoop Spark 类型 分布式基础平台, 包含计算, 阅读全文
posted @ 2024-09-20 09:49 一年都在冬眠 阅读(29) 评论(0) 推荐(0) 编辑
摘要:基于CDP的CM维护Hadoop生态组件 CDP Cloudera Data Platform(CDP)是Cloudera公司推出的一个全面的数据平台,它支持在多云环境中部署和管理数据 CDP提供了一种统一的方法来管理数据和分析工作负载,无论是在本地、公有云还是私有云环境中 CDP包括多种服务和工具 阅读全文
posted @ 2024-09-19 15:07 一年都在冬眠 阅读(65) 评论(0) 推荐(0) 编辑
摘要:基本概念 Kafka是一个分布式实时数据流平台,可独立部署在单台服务器上,也可部署在多台服务器上构成集群。它提供了发布与订阅功能,用户可以发送数据到Kafka集群中,也可以从Kafka集群中读取数据 1、代理(Broker) 在Kafka集群中,一个Kafka进程(Kafka进程又称为 Kafka实 阅读全文
posted @ 2024-09-19 14:33 一年都在冬眠 阅读(34) 评论(0) 推荐(0) 编辑
摘要:Yarn资源调度器 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序 一、基础架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster 阅读全文
posted @ 2024-09-19 13:48 一年都在冬眠 阅读(38) 评论(0) 推荐(0) 编辑
摘要:OutputFormat OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口 几种常见的OutputFormat实现类:NullOutputFormat、MapFileOutputFormat、TextOutputFormat等 阅读全文
posted @ 2024-09-19 11:00 一年都在冬眠 阅读(26) 评论(0) 推荐(0) 编辑
摘要:MapReduce工作流程 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: MapTask收集map()方法输出的kv对,放到内存缓冲区中 从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 多个溢出文件会被 阅读全文
posted @ 2024-09-19 10:35 一年都在冬眠 阅读(138) 评论(0) 推荐(0) 编辑
摘要:切片与MapTask并行度决定机制 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度 数据块:Block是HDFS物理上把数据分成一块一块,数据块是HDFS存储数据单位 数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储,数据切片是M 阅读全文
posted @ 2024-09-19 10:00 一年都在冬眠 阅读(67) 评论(0) 推荐(0) 编辑
摘要:一、概述 1、什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 2、为什么要序列化 数据持久化:序列化允许将内存中的数据结构保存到文件或数据库 阅读全文
posted @ 2024-09-19 09:12 一年都在冬眠 阅读(24) 评论(0) 推荐(0) 编辑
摘要:一、需求分析 需求:在给定的文本文件中统计输出每一个单词出现的总次数 SEVENTEEN.txt文本内容如下: say the name seventeen hello we are seventeen nice to meet you you very nice 按照MapReduce编程规范,分 阅读全文
posted @ 2024-09-18 17:00 一年都在冬眠 阅读(20) 评论(0) 推荐(0) 编辑
摘要:一、定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上 二、优缺点 优点 描述 易于编程 它简单的实现一些接 阅读全文
posted @ 2024-09-18 14:44 一年都在冬眠 阅读(47) 评论(0) 推荐(0) 编辑
摘要:一、DataNode工作机制 1、一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳 2、DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息 3、心跳是每 阅读全文
posted @ 2024-09-18 14:19 一年都在冬眠 阅读(51) 评论(0) 推荐(0) 编辑
摘要:一、NN和2NN工作机制 1、NameNode中的元数据存储在哪里? 存储在NameNode节点的磁盘中会导致效率过低,因为经常需要进行随机访问和响应客户请求;存储在内存中,一旦元数据丢失,整个集群就无法工作,也不合适。因此产生了在磁盘中备份元数据的FsImage。 引入Edits文件(只进行追加操 阅读全文
posted @ 2024-09-18 14:05 一年都在冬眠 阅读(77) 评论(0) 推荐(0) 编辑
摘要:HDFS读写数据流程 一、写数据流程 1、客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在 2、NameNode返回是否可以上传 3、客户端请求第一个Block上传到哪几个DataNode服务器上 4、N 阅读全文
posted @ 2024-09-18 09:36 一年都在冬眠 阅读(31) 评论(0) 推荐(0) 编辑
摘要:API操作 Shell操作是在集群内部,即hadoop102上进行操作,API操作是希望在Windows上能远程连接集群实现增删改查操作 一、客户端环境准备 1、找到资料包路径下的Windows依赖文件夹,拷贝hadoop-3.1.0到非中文路径 2、在Windows上配置HADOOP_HOME环境 阅读全文
posted @ 2024-09-14 17:03 一年都在冬眠 阅读(107) 评论(0) 推荐(0) 编辑
摘要:Shell操作 一、基本语法 hadoop fs 具体命令 hdfs dfs 具体命令 二、命令大全 [user@hadoop102 ~]$ hadoop fs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst 阅读全文
posted @ 2024-09-14 10:42 一年都在冬眠 阅读(19) 评论(0) 推荐(0) 编辑
摘要:HDFS概述 一、产生背景和定义 1、产生背景 一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2、定义 HDFS(Hadoop Distribute 阅读全文
posted @ 2024-09-14 09:21 一年都在冬眠 阅读(39) 评论(0) 推荐(0) 编辑
摘要:遇到的问题及解决方法 1、Hadoop启动正常,但是进不了web端hadoop102:9870 解决方法:查看自己的hosts文件(C:\Windows\System32\drivers\etc),发现没有配置相关网点,添加如下内容(不需要在前面加'#'): 192.168.10.100 hadoo 阅读全文
posted @ 2024-09-13 15:32 一年都在冬眠 阅读(109) 评论(0) 推荐(0) 编辑
摘要:完全分布式运行模式 一、群起集群 1、配置workers [user@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers 在文件中添加如下内容: hadoop102 hadoop103 hadoop104 2、启动集群 阅读全文
posted @ 2024-09-13 15:26 一年都在冬眠 阅读(17) 评论(0) 推荐(0) 编辑
摘要:完全分布式运行模式 一、SSH无密登录配置 1、基本语法 ssh 另一台电脑的IP地址 [user@hadoop102 ~]$ ssh hadoop103 退回hadoop102 [user@hadoop103 ~]$ exit 2、配置 (1)生成公钥和私钥 [user@hadoop102 .ss 阅读全文
posted @ 2024-09-12 17:29 一年都在冬眠 阅读(9) 评论(0) 推荐(0) 编辑
摘要:生产集群搭建 Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式 本地模式(官方WorldCount) 单机运行,生产环境不用 数据存储在Linux本地 例子:使用 Hadoop 运行一个 MapReduce 程序来执行词频统计 1、在hadoop-3.1.3文件下面创建一个wcin 阅读全文
posted @ 2024-09-12 15:59 一年都在冬眠 阅读(35) 评论(0) 推荐(0) 编辑
摘要:环境准备 模板虚拟机准备 1、安装模板虚拟机 IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G 下载安装VWare Workstation Pro 16,因为Win11与VMWare15不兼容,在15中打开虚拟机会蓝屏 Linux系统全部以CentOS-7.5- 阅读全文
posted @ 2024-09-11 15:26 一年都在冬眠 阅读(18) 评论(0) 推荐(0) 编辑
摘要:IF语句 IF( expr1 , expr2 , expr3 ) expr1 的值为 TRUE,则返回值为 expr2 expr1 的值为FALSE,则返回值为 expr3 SELECT IF(TRUE,1+1,1+2); -> 2 SELECT IF(FALSE,1+1,1+2); -> 3 WI 阅读全文
posted @ 2024-09-11 09:28 一年都在冬眠 阅读(31) 评论(0) 推荐(0) 编辑
摘要:连续问题的本质 单调递增的等差数列 例如游戏连续签到7天可以获得奖品,连续出现3次的数字 求解方法 (1)确定什么属性连续出现三次,即哪一属性连续,哪一属性相等 (2)增加额外的等差递增列,然后进行作差分组 案例 查询至少连续出现3次的数字 Logs表: id num 1 1 2 1 3 1 4 2 阅读全文
posted @ 2024-09-10 17:13 一年都在冬眠 阅读(67) 评论(0) 推荐(0) 编辑
摘要:概述 Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构 分布式系统:多台服务器共同完成一个任务(例如多台计算机共同存储一份大数据) 主要解决:海量数据的存储和海量数据的分析计算问题 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈 Hadoo 阅读全文
posted @ 2024-09-09 14:31 一年都在冬眠 阅读(14) 评论(0) 推荐(0) 编辑
摘要:大数据概念 大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB 大数 阅读全文
posted @ 2024-09-09 09:23 一年都在冬眠 阅读(10) 评论(0) 推荐(0) 编辑
摘要:概念 将数据进行分组,每个分组即是一个窗口,这和使用聚合函数时的group by分组类似 窗口函数会逐行计算,其重点是计算当前行与窗口内其他成员之间的关系,例如:组内排序,累积分布等 判断一个函数是不是窗口函数只需要看其是否有over关键字即可 窗口函数和聚合函数的区别 聚合函数(例如:sum/av 阅读全文
posted @ 2024-09-06 17:23 一年都在冬眠 阅读(36) 评论(0) 推荐(0) 编辑
摘要:日期函数 函数 描述 NOW() 返回当前的日期和时间 CURDATE() 返回当前的日期 CURTIME() 返回当前的时间 DATE() 提取日期或日期/时间表达式的日期部分 EXTRACT() 返回日期/时间的单独部分 DATE_ADD() 向日期添加指定的时间间隔 DATE_SUB() 从日 阅读全文
posted @ 2024-09-05 16:58 一年都在冬眠 阅读(10) 评论(0) 推荐(0) 编辑
摘要:LIKE操作符 用于在 WHERE 子句中搜索列中的指定模式,是进行模糊查询的关键字 通常与 % 和 _ 通配符一起使用 SELECT column1, column2, ... FROM table_name WHERE column_name LIKE pattern; 通配符 %:匹配任意字符 阅读全文
posted @ 2024-09-05 13:39 一年都在冬眠 阅读(72) 评论(0) 推荐(0) 编辑
摘要:聚合函数 1、AVG()函数 返回数值列的平均值 SELECT AVG(column_name) FROM table_name 2、COUNT()函数 返回匹配指定条件的行数 (1)返回指定列的值的数目(NULL不计入) SELECT COUNT(column_name) FROM table_n 阅读全文
posted @ 2024-09-04 16:50 一年都在冬眠 阅读(22) 评论(0) 推荐(0) 编辑
摘要:MySQL书写规则 SQL关键字不区分大小写 某些数据库系统要求每个SQL语句的末尾都有一个分号,分号是分隔数据库中每个 SQL 语句的标准方法 SQL要求在文本值周围加上单引号,数字字段不应用引号括起来 SELECT语句 用于从数据库中选择数据,返回的数据存储在结果表中,称为结果集 SELECT 阅读全文
posted @ 2024-09-04 14:34 一年都在冬眠 阅读(24) 评论(0) 推荐(0) 编辑
摘要:查询 [WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0) SELECT [ALL | DISTINCT] select_expr, selec 阅读全文
posted @ 2024-09-03 14:41 一年都在冬眠 阅读(14) 评论(0) 推荐(0) 编辑
摘要:DML数据操作 一、数据导入 1、向表中装载数据 hive> load data [local] inpath '路径' [overwrite] into table 表名 [partition (partcol1=val1,…)]; (1)load data:表示加载数据 (2)local:表示从 阅读全文
posted @ 2024-09-02 14:36 一年都在冬眠 阅读(9) 评论(0) 推荐(0) 编辑
摘要:Hive数据类型 一、基本数据类型 Hive数据类型 Java数据类型 TINYINT byte SMALINT short INT int BIGINT long BOOLEAN boolean FLOAT float DOUBLE double STRING string TIMESTAMP B 阅读全文
posted @ 2024-09-02 14:00 一年都在冬眠 阅读(54) 评论(0) 推荐(0) 编辑
摘要:「连锁超市销售报告」案例制作 一、案例背景 制作一份8月的销售报告: 1、对未来的商品进货能够得出预测 2、分析毛利额下滑原因 二、分析思路 1、商品的进货预测 (1)可以对8月超市商品的销售额进行观察——找到热销商品,增加进货数量,保证充足库存; (2)还能对不同类别商品的销售额进行比较——找到热 阅读全文
posted @ 2024-09-02 09:43 一年都在冬眠 阅读(163) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示