Hadoop概念、安装、使用

Hadoop学习笔记

  1. Hadoop概念

1.思想之源

 

 

  1. HDFS分布式存储

2.1 HDFS概念

2.2 HDFS优点

    1. HDFS缺点

 

 

    1. HDFS架构

    1. HDFS存储单元(block)

 

 

 

    1. HDFS设计思想

 

    1. HDFS核心概念

1.NameNode概念

 

 

2.SecondaryNameNode概念

3.SNN合并流程

 

 

4.DataNode概念

5.Block副本放置策略

 

 

 

 

 

 

 

 

6.HDFS写流程

7.HDFS读写权限

 

 

8.安全模式

 

 

2.8下载Hadoop

地址       http://hadoop.apache.org/

官方文档

 

 

2.9搭建完全分布式HDFS

前提:安装jdk,下载hodoop

1.计划服务器搭建(共四台)

 

2.计划搭建流程

 

 

3.配置yum源(可选)

4.安装ntpdate时间同步

 

四台都要执行安装

 

 

5.设置ntpdate服务器

后面url可在网上搜到

(关闭防火墙)

6.设置免密登录

查看私钥文件和公钥文件

 

 

让node2-node4都进行免密登录

node3,node4也是一样的操作

 

 

7.安装jdk

上传jdk和hadoop

把安装版传到node2,node3,node4

执行安装

修改etc/profile文件,配置环境变量

注意:四台都需要有该环境

 

 

8.安装Hadoop

-c  /home

修改etc/profile

刷新profile文件

 

 

修改hadoop里面的etc

删除文档

同步node

scp –r hadoop-2.5.1/  node3:/home

 

 

9.格式化节点

 

10.启动HDFS

访问Hadoop,node1需要在host中配置,直接加端口访问即可:50070

 

 

11.查看节点

12.查看是否有DataNode

显示这个环境搭建成功!

 

3.0 HDFS的shell命令

mkdir 

创建目录

ls

查看当前路径下的hdfs文件目录

put

上传文件

get

下载文件

rm –f

删除文件

 

3.1 安装Eclipse插件

放到该目录下

重启eclipse,暂不支持版本高的eclipse

3.2 eclipse操作

创建连接

修改hosts

改用户名

3.3 项目的创建

导入jar包

还有commons

3.4 eclipse代码操作

粘贴配置文件

 

 

 

 

  1. 创建目录

  1. 上传文件

  1. 查看文件

  1. 上传文件(音频、文档)

 

 

  1. 下载文件

 

 

3.5 HDFS 2.x Federation

1.概念

Federation中文:联邦

具体图示:

 

 

2.搭建环境

图片上配置了两组

 

 

  1. HA

 

  1. HDFS-HA
  1. 部署ha流程
  1. 安装配置zookeeper

 

  1. 配置hdfs-site.xml

 

 

  1. 配置http请求地址

 

  1. 配置journal集群

 

  1. 配置故障器

 

 

  1. 配置免密钥

 

  1. 修改core-site.xml

 

 

  1. 部署ha
  1. 具体流程图

  1. 做免密钥

全部执行下该命令

测试

 

 

 

  1. 修改配置文件
  1. 删除masters

其他几台也一样

  1. 删除hadoop

 

  1. 修改hdfs-site.xml

  1. 修改core-site.xml

  1. 安装zookeeper
  1. 解压zookeeper

 

  1. 修改profile文件

 

  1. 修改zoo.cfg

 

 

 

 

  1. 创建zookeeper目录

 

  1. 创建myid文件

(在node1)写个1

 

  1. 同步

 

Copy目录,拷贝到node2,3

 

  1. 创建myid

在node2,node3中的opt文件中创建zookeeper,里面创建myid文件,写上2和3

 

  1. 启动zookeeper

 

 

 

 

 

 

  1. 配置hdfs-site.xml

 

  1. 配置core-site.xml

 

  1. 同步配置文件

 

  1. 启动journalnode

在3和4也启动下

在四里面也配置下前两个

 

 

 

  1. MapReduce分布式计算
  1. 概念

 

例子—统计文本文件

 

 

  1. MapReduce的Split大小

 

  1. Mapper

 

  1. Reducer

 

  1. Shuffler

 

 

posted @ 2019-01-02 08:25  墨小枫233  阅读(128)  评论(0编辑  收藏  举报