Cloudera Hadoop 环境搭建(离线安装)

关于CDH和Cloudera Manager

CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。

Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化。

系统环境

  • 实验环境:VMware虚拟机
  • 操作系统:CentOS 7  x64
  • Cloudera Manager:5.13.0
  • CDH: 5.13.0

安装说明

官方共给出了3中安装方式:第一种方法必须要求所有机器都能连网,由于最近各种国外的网站被墙的厉害,我尝试了几次各种超时错误,巨耽误时间不说,一旦失败,重装非常痛苦。第二种方法下载很多包。第三种方法对系统侵入性最小,最大优点可实现全离线安装,而且重装什么的都非常方便。后期的集群统一包升级也非常好。这也是我之所以选择离线安装的原因。

相关包的下载地址

CDH5下载地址:http://archive.cloudera.com/cdh5/parcels/5.13/

Cloudera Manager下载地址:http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.13.0/RPMS/x86_64/

准备工作:系统环境搭建

1. 关闭防火墙

systemctl stop firewalld.service #停止firewall
systemctl disable firewalld.service #禁止firewall开机启动
firewall-cmd --state #查看默认防火墙状态
View Code

2. 关闭SElinux

l 修改/etc/selinux/config 文件
l 将SELINUX=enforcing改为SELINUX=disabled
l 重启机器即可

3. 各节点可以SSH登陆

ssh-copy-id -i /root/.ssh/id_rsa root@xxx,xxx,xxx,xxx
View Code

4. 在修改/etc/hostname主机名称,/etc/hosts中添加各节点的主机名,

5. 设置时间同步

 yum -y install ntp ntpdate #安装ntpdate工具
 ntpdate cn.pool.ntp.org #设置系统时间与网络时间同步
 hwclock --systohc #将系统时间写入硬件时间
View Code

安装Cloudrea  Manager

安装rpm文件

l 将下载的rpm包放入文件夹rpm(文件夹名随意)
l cd  ./rpm(进入rpm目录)
l yum localinstall –-nogpgcheck  *.rpm(安装rpm包)

server节点安装

agent节点安装

启动server节点服务

service cloudera-scm-server start;

配置config.ini文件

修改主机名
修改前为:localhost   修改后为:master

配置本地源

  把以下载的.parcel文件,.parcel.sha文件和manifest.json文件拷贝到/opt/cloudera/parcel-repo/文件夹下

登录CM (账号:admin 密码:admin)

 

安装集群,包括Hadoop,YARN,Hive等

Hadoop及其组件安装选择Cloudera版本

 

选中受管理的主机

选择安装方式(Cloudera推荐使用Parcel)

安装选定 Parcel 

 添加服务

服务安装完成

 

 向集群增加节点增加主机

 

 

主机添加完成

添加选定 Parcel 

验证,安装完成

 

 

posted @ 2017-11-13 14:05  nbfujx  阅读(1183)  评论(0编辑  收藏  举报