搭建hadoop本地模式
Hadoop生态圈组件:
作用:离线数据存储、离线数据计算
编程语言:java语言
历史:基于Google的三篇论文(Google的GFS,Google的MapReduce)
步骤:
1.安装VMWare,下载镜像文件 rhel-server-7.4-x86_64-dvd
右键新建虚拟机
编辑虚拟机
启动虚拟机
配置local(伪分布模式) hadoop模式
解压
/root/tools
hadoop-2.7.3.tar.gz jdk-8u161-linux-x64.tar.gz
tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/
tar -zxvf jdk-8u161-linux-x64.tar.gz -C ~/training/
执行
rpm -ivh tree-1.6.0-10.el7.x86_64.rpm
配置java环境变量
vi ~/.bash_profile
追加配置
JAVA_HOME=/root/training/jdk1.8.0_161
export JAVA_HOME
PATH=$JAVA_HOME/bin:$PATH
export PATH
HADOOP_HOME=/root/training/hadoop-2.7.3
export HADOOP_HOME
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
配置hadoop环境
vi /root/training/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
修改第25行
JAVA_HOME 加入真实路径
生效配置
source ~/.bash_profile
/root/temp/data.txt 文件存储数据
计算重复数
hadoop jar /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /root/temp/root/output/wc
查看结果
more /root/output/wc3/part-r-00000