随笔 - 2 文章 - 721 评论 - 6 阅读 - 35万

文章分类 - Hadoop

摘要：Shuffle 机制是指在分布式计算中用于重新分配数据并进行合并的过程。 MR工作流程 1. Map 阶段：在 MapReduce框架中，任务首先会被划分为多个 Map 任务，每个 Map 任务负责处理输入数据的一部分。在处理过程中，Map 任务会生成键值对（key-value pairs），其中键阅读全文

posted @ 2024-12-28 19:40 溪水静幽阅读(30) 评论(0) 推荐(0) 编辑

yarn杀掉正在运行的任务

摘要：yarn application -list # 查看当前任务列表 yarn application -kill application_id # 杀掉某一任务阅读全文

posted @ 2024-12-28 18:26 溪水静幽阅读(10) 评论(0) 推荐(0) 编辑

hdfs命令

摘要：HDFS是一个分布式文件，旨在运行在大规模集群上。它的设计目标是存储超大规模数据集，并提供高吞吐量的数据访问。HDFS将文件划分为多个数据块，并将这些数据块分布存储在集群中的多个节点上，以实现数据的并行处理和高可靠性。 HDFS的架构包含组件： NameNode：负责管理文件系统的命名空间、存储文件阅读全文

posted @ 2024-12-13 22:14 溪水静幽阅读(6) 评论(0) 推荐(0) 编辑

集群时间同步

摘要：同步方式机器可以访问网络，这种定时同步网络时间从节点同步主节点的时间，其他机器不连接网络，只从主节点同步检查时区 date -R 如果不是+8，需要先设置机器的时区 rm -f /etc/localtime ln -s /usr/share/zoneinfo/Asia/Shanghai /et 阅读全文

posted @ 2024-12-11 21:46 溪水静幽阅读(12) 评论(0) 推荐(0) 编辑

hadoop分布式集群部署

摘要：修改主机名 #hostnamectl set-hostname master #hostnamectl set-hostname slaveone #hostnamectl set-hostname slavetwo 2.修改IP地址和主机名的映射关系 vim /etc/hosts 添加映射 192 阅读全文

posted @ 2024-12-01 23:24 溪水静幽阅读(7) 评论(0) 推荐(0) 编辑

伪分布式Hadoop集群

摘要：单机模式（Standalone ） hadoop默认情况是以非分布式单机方式运行的，所有的Hadoop服务都是运行在一个JVM虚拟机上，这种模式下Hadoop采用操作系统本地文件而不是HDFS（Hadoop File System）进行数据的存储。伪分布式（Pseudo-Distributed ）阅读全文

posted @ 2023-05-13 09:46 溪水静幽阅读(71) 评论(0) 推荐(0) 编辑