搭建hadoop本地模式

Hadoop生态圈组件:

作用:离线数据存储、离线数据计算

编程语言:java语言

历史:基于Google的三篇论文(Google的GFS,Google的MapReduce)

 步骤:

1.安装VMWare,下载镜像文件  rhel-server-7.4-x86_64-dvd

右键新建虚拟机

 

 

 编辑虚拟机

 

 启动虚拟机

 

 

 

 

 

 

配置local(伪分布模式) hadoop模式

解压
/root/tools
hadoop-2.7.3.tar.gz jdk-8u161-linux-x64.tar.gz

tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/
tar -zxvf jdk-8u161-linux-x64.tar.gz -C ~/training/

执行
rpm -ivh tree-1.6.0-10.el7.x86_64.rpm


配置java环境变量
vi ~/.bash_profile

追加配置
JAVA_HOME=/root/training/jdk1.8.0_161
export JAVA_HOME

PATH=$JAVA_HOME/bin:$PATH
export PATH

HADOOP_HOME=/root/training/hadoop-2.7.3
export HADOOP_HOME

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH

配置hadoop环境
vi /root/training/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
修改第25行
JAVA_HOME 加入真实路径

生效配置
source ~/.bash_profile

/root/temp/data.txt 文件存储数据


计算重复数
hadoop jar /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /root/temp/root/output/wc

查看结果
more /root/output/wc3/part-r-00000

 

posted @   蔡徐坤1987  阅读(16)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
点击右上角即可分享
微信分享提示