Cloudera Hadoop 环境搭建(离线安装)
关于CDH和Cloudera Manager
CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。
Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化。
系统环境
- 实验环境:VMware虚拟机
- 操作系统:CentOS 7 x64
- Cloudera Manager:5.13.0
- CDH: 5.13.0
安装说明
官方共给出了3中安装方式:第一种方法必须要求所有机器都能连网,由于最近各种国外的网站被墙的厉害,我尝试了几次各种超时错误,巨耽误时间不说,一旦失败,重装非常痛苦。第二种方法下载很多包。第三种方法对系统侵入性最小,最大优点可实现全离线安装,而且重装什么的都非常方便。后期的集群统一包升级也非常好。这也是我之所以选择离线安装的原因。
相关包的下载地址
CDH5下载地址:http://archive.cloudera.com/cdh5/parcels/5.13/
Cloudera Manager下载地址:http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.13.0/RPMS/x86_64/
准备工作:系统环境搭建
1. 关闭防火墙
systemctl stop firewalld.service #停止firewall
systemctl disable firewalld.service #禁止firewall开机启动
firewall-cmd --state #查看默认防火墙状态
2. 关闭SElinux
l 修改/etc/selinux/config 文件
l 将SELINUX=enforcing改为SELINUX=disabled
l 重启机器即可
3. 各节点可以SSH登陆
ssh-copy-id -i /root/.ssh/id_rsa root@xxx,xxx,xxx,xxx
4. 在修改/etc/hostname主机名称,/etc/hosts中添加各节点的主机名,
5. 设置时间同步
yum -y install ntp ntpdate #安装ntpdate工具
ntpdate cn.pool.ntp.org #设置系统时间与网络时间同步
hwclock --systohc #将系统时间写入硬件时间
安装Cloudrea Manager
安装rpm文件
l 将下载的rpm包放入文件夹rpm(文件夹名随意)
l cd ./rpm(进入rpm目录)
l yum localinstall –-nogpgcheck *.rpm(安装rpm包)
server节点安装
agent节点安装
启动server节点服务
service cloudera-scm-server start;
配置config.ini文件
修改主机名
修改前为:localhost 修改后为:master
配置本地源
把以下载的.parcel文件,.parcel.sha文件和manifest.json文件拷贝到/opt/cloudera/parcel-repo/文件夹下
登录CM (账号:admin 密码:admin)
安装集群,包括Hadoop,YARN,Hive等
Hadoop及其组件安装选择Cloudera版本
选中受管理的主机
选择安装方式(Cloudera推荐使用Parcel)
安装选定 Parcel
添加服务
服务安装完成
向集群增加节点增加主机
主机添加完成
添加选定 Parcel
验证,安装完成