day04笔记
**********************************************
课程回顾:
(1)什么是大数据--4V
存储、计算和分析
(2)数据仓库--大数据 Share Nothing
(3)OLTP OLAP
(4)Google的三驾马车--GFS(HDFS) MR bigtable(Hbase)
**********************************************
1、Hadoop的安装准备工作
Hadoop名字来源--douge cutting
(1)安装好linux操作系统(IP配置)
(2)关闭防火墙
systemctl stop(disable) firewalld.service
(3) 安装Jdk--winscp 上传 opt/software 解压到 opt/moudle
(4) Hadoop安装包---虚拟机的克隆 scp(拷贝)
a、提前准备好 mkdir /opt/moudle
tar -zxvf hadoop-2.7.3.tar.gz -C /opt/moudle/
b、vi ~/.bash_profile 增加下面内容
HADOOP_HOME=/opt/moudle/hadoop-2.7.3
export HADOOP_HOME
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
c、 环境变量生效
source ~/.bash_profile
通过 输入 start 按两下tab 看是否有内容
** 虚拟机克隆 **
(1)保证虚拟机处于关闭状态
(2)右键->管理->克隆 当前状态 完整克隆-->
(3)hostname--修改
ip修改 --reboot
Hadoop(HDFS+Yarn) 本地 伪分布 全分布
2、Hadoop安装---本地安装
(1)特点:没有HDFS和Yarn 只能够测试MR程序是否成功, 作为一个普通的java程序。
(2)修改文件:
vi hadoop-env.sh
set number
修改25行(行数不一 hadoop版本不一致)
JAVA_HOME=/opt/moudle/jdk1.8.0_181
cd /root/
mkdir temp
touch a.txt
vi a.txt
## mapred-site.xml 默认没有,我克隆的文件里面有 这个文件没有被覆盖指定了yarn资源 ##
3、Hadoop安装---本地安装伪分布模式
(1)特点:在一台机器上模拟一个分布式环境具备hadoop的所有功能。
HDFS:NameNode+DataNode+SecondarynameNode
Yarn:ResourceManager+NodeManager
(2)修改的文件:
**step1:hadoop-env.sh**
JAVA_HOME=/opt/moudle/jdk1.8.0_181
** step2:hdfs-site.xml**
<!--注释配置数据块的冗余度,默认是3-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!--注释配置HDFS的权限检查,默认是true-->
<!--
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
-->
**step3:core-site.xml**
<!--配置HDFS主节点,namenode的地址,9000是RPC通信端口-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata124:9000</value>
</property>
<!--配置HDFS数据块和元数据保存的目录,一定要修改-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/moudle/hadoop-2.7.3/tmp</value>
</property>
**step4:mapred-site.xml(默认没有)**
cp mapred-site.xml.template mapred-site.xml
<!--配置MR程序运行的框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
**step5:yarn-site.xml**
<!--配置Yarn的节点-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata124</value>
</property>
<!--NodeManager执行MR任务的方式是Shuffle洗牌-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
** step 6:通过HDFS namenode 格式化**
在第4步中,hadoop.tmp.dir--格式化
命令:hdfs namenode -format
验证:是否格式化成功:
Storage directory /opt/moudle/hadoop-2.7.3/tmp/dfs/name has been successfully formatted.
** 最后启动,通过start-all.sh启动**
验证:5314 SecondaryNameNode
5586 NodeManager
5476 ResourceManager
5126 DataNode
5878 Jps
5022 NameNode
web访问:http://10.1.255.124:8088 yarn
http://10.1.255.124:50070 HDFS
4、免密码登录的原理和配置
5、Hadoop安装---全分布模式
作业:准备3台机器。完成1 的准备工作。
加入到 etc/hosts
10.1.255.121 bigdata121
10.1.255.122 bigdata122
10.1.255.123 bigdata123