搭建hadoop本地模式

Hadoop生态圈组件:

作用:离线数据存储、离线数据计算

编程语言:java语言

历史:基于Google的三篇论文(Google的GFS,Google的MapReduce)

 步骤:

1.安装VMWare,下载镜像文件  rhel-server-7.4-x86_64-dvd

右键新建虚拟机

 

 

 编辑虚拟机

 

 启动虚拟机

 

 

 

 

 

 

配置local(伪分布模式) hadoop模式

解压
/root/tools
hadoop-2.7.3.tar.gz jdk-8u161-linux-x64.tar.gz

tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/
tar -zxvf jdk-8u161-linux-x64.tar.gz -C ~/training/

执行
rpm -ivh tree-1.6.0-10.el7.x86_64.rpm


配置java环境变量
vi ~/.bash_profile

追加配置
JAVA_HOME=/root/training/jdk1.8.0_161
export JAVA_HOME

PATH=$JAVA_HOME/bin:$PATH
export PATH

HADOOP_HOME=/root/training/hadoop-2.7.3
export HADOOP_HOME

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH

配置hadoop环境
vi /root/training/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
修改第25行
JAVA_HOME 加入真实路径

生效配置
source ~/.bash_profile

/root/temp/data.txt 文件存储数据


计算重复数
hadoop jar /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /root/temp/root/output/wc

查看结果
more /root/output/wc3/part-r-00000

 

posted @ 2024-04-03 19:59  蔡徐坤1987  阅读(12)  评论(0编辑  收藏  举报