随笔 - 2  文章 - 721  评论 - 6  阅读 - 35万

文章分类 -  Hadoop

MapReduce的Shuffle机制
摘要:Shuffle 机制是指在分布式计算中用于重新分配数据并进行合并的过程。 MR工作流程 1. Map 阶段:在 MapReduce框架中,任务首先会被划分为多个 Map 任务,每个 Map 任务负责处理输入数据的一部分。在处理过程中,Map 任务会生成键值对(key-value pairs),其中键 阅读全文
posted @ 2024-12-28 19:40 溪水静幽 阅读(30) 评论(0) 推荐(0) 编辑
yarn杀掉正在运行的任务
摘要:yarn application -list # 查看当前任务列表 yarn application -kill application_id # 杀掉某一任务 阅读全文
posted @ 2024-12-28 18:26 溪水静幽 阅读(10) 评论(0) 推荐(0) 编辑
hdfs命令
摘要:HDFS是一个分布式文件,旨在运行在大规模集群上。它的设计目标是存储超大规模数据集,并提供高吞吐量的数据访问。HDFS将文件划分为多个数据块,并将这些数据块分布存储在集群中的多个节点上,以实现数据的并行处理和高可靠性。 HDFS的架构包含组件: NameNode:负责管理文件系统的命名空间、存储文件 阅读全文
posted @ 2024-12-13 22:14 溪水静幽 阅读(6) 评论(0) 推荐(0) 编辑
集群时间同步
摘要:同步方式 机器可以访问网络,这种定时同步网络时间 从节点同步主节点的时间,其他机器不连接网络,只从主节点同步 检查时区 date -R 如果不是+8,需要先设置机器的时区 rm -f /etc/localtime ln -s /usr/share/zoneinfo/Asia/Shanghai /et 阅读全文
posted @ 2024-12-11 21:46 溪水静幽 阅读(12) 评论(0) 推荐(0) 编辑
hadoop分布式集群部署
摘要:修改主机名 #hostnamectl set-hostname master #hostnamectl set-hostname slaveone #hostnamectl set-hostname slavetwo 2.修改IP地址和主机名的映射关系 vim /etc/hosts 添加映射 192 阅读全文
posted @ 2024-12-01 23:24 溪水静幽 阅读(7) 评论(0) 推荐(0) 编辑
伪分布式Hadoop集群
摘要:单机模式(Standalone ) hadoop默认情况是以非分布式单机方式运行的,所有的Hadoop服务都是运行在一个JVM虚拟机上,这种模式下Hadoop采用操作系统本地文件而不是HDFS(Hadoop File System)进行数据的存储。 伪分布式(Pseudo-Distributed ) 阅读全文
posted @ 2023-05-13 09:46 溪水静幽 阅读(71) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示