大二暑期暑假总结第二周

NameNode数据存储位置
DataNode数据具体的存储位置
2NN辅助NameNode工作
NameNode存储文件的元数据如文件名,文件目录结构,文件属性,以及每个文件的块列表和块所在的DataNode等
DataNode在文件系统存储文件块数据,以及块数据的校验和
2nn:每隔一段时间对NameNode元数据备份

YARN架构
RM整个集群资源的老大
NM单个节点服务器资源老大
AM单个任务运行的老大
Conitainer:容器,相当于独立服务器,里面有任务运行的需要资源
集群可以有多个客户端
集群上可以有多个AM
每个NM可以有多个容器

 hadoop配置

下载VMware,建议15以上版本,win11使用16以上版本否则会出现蓝屏现象

下载远程控制xshell与xtfp,注意要使用最新版本,否则无法使用,最新版本学生版可免费使用

配置虚拟机,根据自身电脑配置\

配置网络和ip地址

下载jdk与hadoop

Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。

本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。

伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。

完全分布式模式:多台服务器组成分布式环境。生产环境使用。

scp(secure copy)安全拷贝

scp定义scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)

基本语法

scp -r $pdir/$fname $user@$host:$pdir/$fname
命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。

集群部署规划
注意:

NameNode和SecondaryNameNode不要安装在同一台服务器

ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。

配置文件说明
Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。

日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。

注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryServer。
各个模块分开启动/停止(配置ssh是前提)常用

整体启动/停止HDFS
start-dfs.sh/stop-dfs.sh
整体启动/停止YARN

start-yarn.sh/stop-yarn.sh
各个服务组件逐一启动/停止

分别启动/停止HDFS组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode
启动/停止YARN
yarn --daemon start/stop resourcemanager/nodemanager

 

posted @ 2023-07-22 11:49  摆烂达人  阅读(3)  评论(0编辑  收藏  举报