大二暑期暑假总结第二周

NameNode数据存储位置
DataNode数据具体的存储位置
2NN辅助NameNode工作
NameNode存储文件的元数据如文件名,文件目录结构,文件属性,以及每个文件的块列表和块所在的DataNode等
DataNode在文件系统存储文件块数据,以及块数据的校验和
2nn:每隔一段时间对NameNode元数据备份

YARN架构
RM整个集群资源的老大
NM单个节点服务器资源老大
AM单个任务运行的老大
Conitainer:容器,相当于独立服务器,里面有任务运行的需要资源
集群可以有多个客户端
集群上可以有多个AM
每个NM可以有多个容器

hadoop配置

下载VMware,建议15以上版本,win11使用16以上版本否则会出现蓝屏现象

下载远程控制xshell与xtfp,注意要使用最新版本,否则无法使用,最新版本学生版可免费使用

配置虚拟机,根据自身电脑配置\

配置网络和ip地址

下载jdk与hadoop

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。

伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。

完全分布式模式：多台服务器组成分布式环境。生产环境使用。

scp（secure copy）安全拷贝

scp定义scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）

基本语法

scp -r $pdir/$fname $user@$host:$pdir/$fname
命令递归要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

集群部署规划
注意：

NameNode和SecondaryNameNode不要安装在同一台服务器

ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

配置文件说明
Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。
各个模块分开启动/停止（配置ssh是前提）常用

整体启动/停止HDFS
start-dfs.sh/stop-dfs.sh
整体启动/停止YARN

start-yarn.sh/stop-yarn.sh
各个服务组件逐一启动/停止

分别启动/停止HDFS组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode
启动/停止YARN
yarn --daemon start/stop resourcemanager/nodemanager

posted @ 2023-07-22 11:49 摆烂达人阅读(5) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 大二暑期第六周

· 大二暑期假期总结第三周

· 暑假周总结2

· Hadoop学习二

· Hadoop学习笔记day1

公告

昵称：摆烂达人
园龄： 2年8个月
粉丝： 2
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

ewqewq

大二暑期暑假总结第二周

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论