随笔分类 -  Hadoop

基于尚硅谷大数据技术之Hadoop3.x学习视频和资料整理
摘要:基于CDP的CM维护Hadoop生态组件 CDP Cloudera Data Platform(CDP)是Cloudera公司推出的一个全面的数据平台,它支持在多云环境中部署和管理数据 CDP提供了一种统一的方法来管理数据和分析工作负载,无论是在本地、公有云还是私有云环境中 CDP包括多种服务和工具 阅读全文
posted @ 2024-09-19 15:07 一年都在冬眠 阅读(65) 评论(0) 推荐(0) 编辑
摘要:基本概念 Kafka是一个分布式实时数据流平台,可独立部署在单台服务器上,也可部署在多台服务器上构成集群。它提供了发布与订阅功能,用户可以发送数据到Kafka集群中,也可以从Kafka集群中读取数据 1、代理(Broker) 在Kafka集群中,一个Kafka进程(Kafka进程又称为 Kafka实 阅读全文
posted @ 2024-09-19 14:33 一年都在冬眠 阅读(34) 评论(0) 推荐(0) 编辑
摘要:Yarn资源调度器 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序 一、基础架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster 阅读全文
posted @ 2024-09-19 13:48 一年都在冬眠 阅读(38) 评论(0) 推荐(0) 编辑
摘要:OutputFormat OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口 几种常见的OutputFormat实现类:NullOutputFormat、MapFileOutputFormat、TextOutputFormat等 阅读全文
posted @ 2024-09-19 11:00 一年都在冬眠 阅读(26) 评论(0) 推荐(0) 编辑
摘要:MapReduce工作流程 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: MapTask收集map()方法输出的kv对,放到内存缓冲区中 从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 多个溢出文件会被 阅读全文
posted @ 2024-09-19 10:35 一年都在冬眠 阅读(138) 评论(0) 推荐(0) 编辑
摘要:切片与MapTask并行度决定机制 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度 数据块:Block是HDFS物理上把数据分成一块一块,数据块是HDFS存储数据单位 数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储,数据切片是M 阅读全文
posted @ 2024-09-19 10:00 一年都在冬眠 阅读(67) 评论(0) 推荐(0) 编辑
摘要:一、概述 1、什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 2、为什么要序列化 数据持久化:序列化允许将内存中的数据结构保存到文件或数据库 阅读全文
posted @ 2024-09-19 09:12 一年都在冬眠 阅读(24) 评论(0) 推荐(0) 编辑
摘要:一、需求分析 需求:在给定的文本文件中统计输出每一个单词出现的总次数 SEVENTEEN.txt文本内容如下: say the name seventeen hello we are seventeen nice to meet you you very nice 按照MapReduce编程规范,分 阅读全文
posted @ 2024-09-18 17:00 一年都在冬眠 阅读(20) 评论(0) 推荐(0) 编辑
摘要:一、定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上 二、优缺点 优点 描述 易于编程 它简单的实现一些接 阅读全文
posted @ 2024-09-18 14:44 一年都在冬眠 阅读(47) 评论(0) 推荐(0) 编辑
摘要:一、DataNode工作机制 1、一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳 2、DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息 3、心跳是每 阅读全文
posted @ 2024-09-18 14:19 一年都在冬眠 阅读(51) 评论(0) 推荐(0) 编辑
摘要:一、NN和2NN工作机制 1、NameNode中的元数据存储在哪里? 存储在NameNode节点的磁盘中会导致效率过低,因为经常需要进行随机访问和响应客户请求;存储在内存中,一旦元数据丢失,整个集群就无法工作,也不合适。因此产生了在磁盘中备份元数据的FsImage。 引入Edits文件(只进行追加操 阅读全文
posted @ 2024-09-18 14:05 一年都在冬眠 阅读(77) 评论(0) 推荐(0) 编辑
摘要:HDFS读写数据流程 一、写数据流程 1、客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在 2、NameNode返回是否可以上传 3、客户端请求第一个Block上传到哪几个DataNode服务器上 4、N 阅读全文
posted @ 2024-09-18 09:36 一年都在冬眠 阅读(31) 评论(0) 推荐(0) 编辑
摘要:API操作 Shell操作是在集群内部,即hadoop102上进行操作,API操作是希望在Windows上能远程连接集群实现增删改查操作 一、客户端环境准备 1、找到资料包路径下的Windows依赖文件夹,拷贝hadoop-3.1.0到非中文路径 2、在Windows上配置HADOOP_HOME环境 阅读全文
posted @ 2024-09-14 17:03 一年都在冬眠 阅读(107) 评论(0) 推荐(0) 编辑
摘要:Shell操作 一、基本语法 hadoop fs 具体命令 hdfs dfs 具体命令 二、命令大全 [user@hadoop102 ~]$ hadoop fs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst 阅读全文
posted @ 2024-09-14 10:42 一年都在冬眠 阅读(19) 评论(0) 推荐(0) 编辑
摘要:HDFS概述 一、产生背景和定义 1、产生背景 一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2、定义 HDFS(Hadoop Distribute 阅读全文
posted @ 2024-09-14 09:21 一年都在冬眠 阅读(39) 评论(0) 推荐(0) 编辑
摘要:遇到的问题及解决方法 1、Hadoop启动正常,但是进不了web端hadoop102:9870 解决方法:查看自己的hosts文件(C:\Windows\System32\drivers\etc),发现没有配置相关网点,添加如下内容(不需要在前面加'#'): 192.168.10.100 hadoo 阅读全文
posted @ 2024-09-13 15:32 一年都在冬眠 阅读(109) 评论(0) 推荐(0) 编辑
摘要:完全分布式运行模式 一、群起集群 1、配置workers [user@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers 在文件中添加如下内容: hadoop102 hadoop103 hadoop104 2、启动集群 阅读全文
posted @ 2024-09-13 15:26 一年都在冬眠 阅读(17) 评论(0) 推荐(0) 编辑
摘要:完全分布式运行模式 一、SSH无密登录配置 1、基本语法 ssh 另一台电脑的IP地址 [user@hadoop102 ~]$ ssh hadoop103 退回hadoop102 [user@hadoop103 ~]$ exit 2、配置 (1)生成公钥和私钥 [user@hadoop102 .ss 阅读全文
posted @ 2024-09-12 17:29 一年都在冬眠 阅读(9) 评论(0) 推荐(0) 编辑
摘要:生产集群搭建 Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式 本地模式(官方WorldCount) 单机运行,生产环境不用 数据存储在Linux本地 例子:使用 Hadoop 运行一个 MapReduce 程序来执行词频统计 1、在hadoop-3.1.3文件下面创建一个wcin 阅读全文
posted @ 2024-09-12 15:59 一年都在冬眠 阅读(35) 评论(0) 推荐(0) 编辑
摘要:环境准备 模板虚拟机准备 1、安装模板虚拟机 IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G 下载安装VWare Workstation Pro 16,因为Win11与VMWare15不兼容,在15中打开虚拟机会蓝屏 Linux系统全部以CentOS-7.5- 阅读全文
posted @ 2024-09-11 15:26 一年都在冬眠 阅读(18) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示