Hadoop学习
Hadoop入门
大数据:无法在一定时间内,通过常规的技术手段解决的信息资产。
Hadoop就是解决大数据存储、计算问题的框架
Hadoop生态圈(Hadoop是核心)
Hadoop的组成:
Hadoop1.x时,hdfs负责大数据的存储 mapreduce负责大数据的计算和资源调度
Hadoop2.x时,增加了yarn负责资源调度
Hadoop的架构:
hdfs架构:
namenode:负责存储文件的元数据(文件名、存储位置、文件属性)
datanode: 负责存储文件块数据、以及块数据的校验和
secondarynamenode : 每隔一段时间为namenode中的数据做备份
yarn架构:
resourcemanager:负责管理整个集群的资源调度
nodemanager:负责管理单个节点的资源
applicationmaster:单个任务
container:容器,相当于一台服务器,里头封装了内存、cup、磁盘、网络
Hadoop运行环境的搭建:
1)制作出一台模板虚拟机(安装操作系统(Centos7),配置该虚拟机的网络(ip,主机名)(关闭防火墙))
2)以模板机为例克隆出三台虚拟机(修改网络配置)
3)安装jdk(hadoop的运行离不开jdk。Hadoop是用Java编写的,Hadoop天生支持Java语言的编写作业),配置jdk环境变量
4)将Hadoop的压缩包上传到/opt/software/下
5)将Hadoop的压缩包解压并将解压的内容安装到/opt/module/下(tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/),配置Hadoop环境变量
Hadoop运行模式:
本地模式:文件存储在Linux本地
伪分布式:文件存储在hdfs,但是只有单台机器
完全分布式:文件存储在hdfs,多个机器组成的集群
集群的核心配置文件:
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
workers
配置完成后分发出去
集群的开启/停止方式:
start/stop-dfs.sh
start/stop-yarn.sh
单节点启动/停止方式:
hdfs --daemon start datanode/namenode/secondarynamenode
yarn --daemon start resourcemanager/nodemanager
群起集群:
第一次启动集群,需要将namenode进行初始化。生成新的集群id
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了