Hadoop学习

Hadoop入门

大数据:无法在一定时间内,通过常规的技术手段解决的信息资产。

Hadoop就是解决大数据存储、计算问题的框架

Hadoop生态圈(Hadoop是核心)

 

Hadoop的组成:
Hadoop1.x时,hdfs负责大数据的存储  mapreduce负责大数据的计算和资源调度

Hadoop2.x时,增加了yarn负责资源调度

Hadoop的架构:

hdfs架构:
namenode:负责存储文件的元数据(文件名、存储位置、文件属性)

datanode: 负责存储文件块数据、以及块数据的校验和

secondarynamenode : 每隔一段时间为namenode中的数据做备份

 

yarn架构:

resourcemanager:负责管理整个集群的资源调度

nodemanager:负责管理单个节点的资源

applicationmaster:单个任务

container:容器,相当于一台服务器,里头封装了内存、cup、磁盘、网络

Hadoop运行环境的搭建:
1)制作出一台模板虚拟机(安装操作系统(Centos7),配置该虚拟机的网络(ip,主机名)(关闭防火墙))

2)以模板机为例克隆出三台虚拟机(修改网络配置)

3)安装jdk(hadoop的运行离不开jdk。Hadoop是用Java编写的,Hadoop天生支持Java语言的编写作业),配置jdk环境变量

4)将Hadoop的压缩包上传到/opt/software/下

5)将Hadoop的压缩包解压并将解压的内容安装到/opt/module/下(tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/),配置Hadoop环境变量

 

Hadoop运行模式:

本地模式:文件存储在Linux本地

伪分布式:文件存储在hdfs,但是只有单台机器

完全分布式:文件存储在hdfs,多个机器组成的集群

 

集群的核心配置文件:
core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

workers

配置完成后分发出去

 

 集群的开启/停止方式:

start/stop-dfs.sh

start/stop-yarn.sh

单节点启动/停止方式:

hdfs --daemon start datanode/namenode/secondarynamenode

yarn --daemon start resourcemanager/nodemanager

 

群起集群:
第一次启动集群,需要将namenode进行初始化。生成新的集群id

 

posted @   黑山魁七  阅读(124)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
点击右上角即可分享
微信分享提示