MapReduce的Shuffle机制
摘要:Shuffle 机制是指在分布式计算中用于重新分配数据并进行合并的过程。 MR工作流程 1. Map 阶段:在 MapReduce框架中,任务首先会被划分为多个 Map 任务,每个 Map 任务负责处理输入数据的一部分。在处理过程中,Map 任务会生成键值对(key-value pairs),其中键
阅读全文
posted @
2024-12-28 19:40
溪水静幽
阅读(30)
推荐(0) 编辑
yarn杀掉正在运行的任务
摘要:yarn application -list # 查看当前任务列表 yarn application -kill application_id # 杀掉某一任务
阅读全文
posted @
2024-12-28 18:26
溪水静幽
阅读(10)
推荐(0) 编辑
hdfs命令
摘要:HDFS是一个分布式文件,旨在运行在大规模集群上。它的设计目标是存储超大规模数据集,并提供高吞吐量的数据访问。HDFS将文件划分为多个数据块,并将这些数据块分布存储在集群中的多个节点上,以实现数据的并行处理和高可靠性。 HDFS的架构包含组件: NameNode:负责管理文件系统的命名空间、存储文件
阅读全文
posted @
2024-12-13 22:14
溪水静幽
阅读(6)
推荐(0) 编辑
集群时间同步
摘要:同步方式 机器可以访问网络,这种定时同步网络时间 从节点同步主节点的时间,其他机器不连接网络,只从主节点同步 检查时区 date -R 如果不是+8,需要先设置机器的时区 rm -f /etc/localtime ln -s /usr/share/zoneinfo/Asia/Shanghai /et
阅读全文
posted @
2024-12-11 21:46
溪水静幽
阅读(12)
推荐(0) 编辑
hadoop分布式集群部署
摘要:修改主机名 #hostnamectl set-hostname master #hostnamectl set-hostname slaveone #hostnamectl set-hostname slavetwo 2.修改IP地址和主机名的映射关系 vim /etc/hosts 添加映射 192
阅读全文
posted @
2024-12-01 23:24
溪水静幽
阅读(7)
推荐(0) 编辑
伪分布式Hadoop集群
摘要:单机模式(Standalone ) hadoop默认情况是以非分布式单机方式运行的,所有的Hadoop服务都是运行在一个JVM虚拟机上,这种模式下Hadoop采用操作系统本地文件而不是HDFS(Hadoop File System)进行数据的存储。 伪分布式(Pseudo-Distributed )
阅读全文
posted @
2023-05-13 09:46
溪水静幽
阅读(71)
推荐(0) 编辑