搭建hadoop本地模式

Hadoop生态圈组件：

作用：离线数据存储、离线数据计算

编程语言：java语言

历史：基于Google的三篇论文（Google的GFS，Google的MapReduce）

步骤：

1.安装VMWare，下载镜像文件 rhel-server-7.4-x86_64-dvd

右键新建虚拟机

编辑虚拟机

启动虚拟机

配置local（伪分布模式） hadoop模式

解压
/root/tools
hadoop-2.7.3.tar.gz jdk-8u161-linux-x64.tar.gz

tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/
tar -zxvf jdk-8u161-linux-x64.tar.gz -C ~/training/

执行
rpm -ivh tree-1.6.0-10.el7.x86_64.rpm

配置java环境变量
vi ~/.bash_profile

追加配置
JAVA_HOME=/root/training/jdk1.8.0_161
export JAVA_HOME

PATH=$JAVA_HOME/bin:$PATH
export PATH

HADOOP_HOME=/root/training/hadoop-2.7.3
export HADOOP_HOME

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH

配置hadoop环境
vi /root/training/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
修改第25行
JAVA_HOME 加入真实路径

生效配置
source ~/.bash_profile

/root/temp/data.txt 文件存储数据

计算重复数
hadoop jar /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /root/temp/root/output/wc

查看结果
more /root/output/wc3/part-r-00000

posted @ 2024-04-03 19:59 蔡徐坤1987 阅读(49) 评论(0) 收藏举报

刷新页面返回顶部

蔡徐坤1987