Hadoop学习

Hadoop入门

大数据：无法在一定时间内，通过常规的技术手段解决的信息资产。

Hadoop就是解决大数据存储、计算问题的框架

Hadoop生态圈（Hadoop是核心）

Hadoop的组成：
Hadoop1.x时，hdfs负责大数据的存储　mapreduce负责大数据的计算和资源调度

Hadoop2.x时，增加了yarn负责资源调度

Hadoop的架构：

hdfs架构：
namenode：负责存储文件的元数据（文件名、存储位置、文件属性）

datanode: 负责存储文件块数据、以及块数据的校验和

secondarynamenode : 每隔一段时间为namenode中的数据做备份

yarn架构：

resourcemanager:负责管理整个集群的资源调度

nodemanager:负责管理单个节点的资源

applicationmaster:单个任务

container:容器，相当于一台服务器，里头封装了内存、cup、磁盘、网络

Hadoop运行环境的搭建：
1）制作出一台模板虚拟机（安装操作系统(Centos7),配置该虚拟机的网络（ip,主机名）(关闭防火墙)）

2）以模板机为例克隆出三台虚拟机（修改网络配置）

3）安装jdk(hadoop的运行离不开jdk。Hadoop是用Java编写的，Hadoop天生支持Java语言的编写作业)，配置jdk环境变量

4）将Hadoop的压缩包上传到/opt/software/下

5）将Hadoop的压缩包解压并将解压的内容安装到/opt/module/下（tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/），配置Hadoop环境变量

Hadoop运行模式：

本地模式：文件存储在Linux本地

伪分布式：文件存储在hdfs，但是只有单台机器

完全分布式：文件存储在hdfs，多个机器组成的集群

集群的核心配置文件：
core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

workers

配置完成后分发出去

集群的开启/停止方式:

start/stop-dfs.sh

start/stop-yarn.sh

单节点启动/停止方式：

hdfs --daemon start datanode/namenode/secondarynamenode

yarn --daemon start resourcemanager/nodemanager

群起集群：
第一次启动集群，需要将namenode进行初始化。生成新的集群id

posted @ 2022-05-11 10:40 黑山魁七阅读(124) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· MapReduce和Yarn

· 常用的shell脚本

· 大数据技术之Hadoop（入门）概述、运行环境搭建、运行模式

· hadoop学习

· Hadoop

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了

公告

昵称：黑山魁七
园龄： 2年11个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

hskq

Hadoop学习

公告

搜索

常用链接

随笔档案

阅读排行榜