安装Hadoop
一、安装Linux,MySql
(一)安装前准备
1.安装Linux前需要安装 Oracle VM VirtualBox, 下载 https://www.virtualbox.org/wiki/Downloads 。
2.安装成功后,打开VirtualBox。
(二)安装Linux
1.新建虚拟机,为虚拟机命名为Ubuntu,类型为Linux,版本为Ubuntu (64位)。
2.分配虚拟机内存大小为1024MB。
3.创建虚拟硬盘,步骤如下:
(1)选择 现在创建虚拟硬盘(C):
(2)选择 VDI (VirtualBox 磁盘映像):
(3)选择 动态分配:
(4)位置默认为 Ubuntu,大小为 20GB:
4.选择镜像文件
下载 01 ubuntukylin-16.04-desktop-amd64.iso,https://pan.baidu.com/s/1WtFnpezV2oCel3wZHitQUA,7eti
(1)选择 存储:
(2)选择 没有光盘—>第二IDE控制器主通道—>选择一个虚拟光盘文件,即 01 ubuntukylin-16.04-desktop-amd64.iso 镜像文件
(3)启动
(4)安装Ubuntu
(5)设置登陆时的用户名和密码:
(6)不要点击跳过
(7)登陆
(8)安装增强功能
(三)安装MySql
1.更新apt
2.安装mysql-server
3.设置MySql用户root的密码,如root
4.启动MySql服务,需要输入用户登陆密码给予授权
5.关闭MySql服务,同样需要输入用户登陆密码给予授权
6.确认是否登陆成功,MySql节点处于LISTEN状态表示启动成功呢
7.进入MySql shell界面,需要输入MySql登陆密码root
8.显示数据库
9.显示数据库中的表
10.编辑配置文件防止导入时中文乱码,配置文件内容添加 character_set_server=utf8
11.重启MySql服务
12.查看修改结果
二、windows 与 虚拟机互传文件
参考网址:https://www.cnblogs.com/dong-blog/p/7207831.html
(一)在windows本机新建一个共享文件夹并命名为 s,这是一个用于与Ubuntu交互的文件夹
(二)在Ubuntu中,点击左上角的设备,点击共享文件夹,选择添加共享文件夹,选择其他,选择在windows本机创建的共享文件夹 s,选择固定分配(一定不要选择自动挂载)
(三)在Ubuntu中,打开终端,创建 share 作为文件共享文件夹
(四)将windows本机的 s 文件挂载到Ubuntu的 /mnt/share 挂载点
(五)在windows把需要的文件放进 s 文件夹里,到 Ubuntu 查看共享文件是否共享成功
(六)在共享目录下使用命令:vi /etc/fstab,在文本中添加一行命令:s /mnt/share vboxsf rw,gid=110,uid=110,auto 0 0,设置成自动挂载,确保重启虚拟机后系统共享仍在
(七)编辑文本,然后保存退出
三、安装Hadoop
(一)创建Hadoop用户
1.创建hadoo用户
2.为Hadoop用户设置密码
3.为Hadoop用户添加管理员权限
4.登陆Hadoop用户
(二)实现无密码登录
1.打开终端,使用命令:sudo apt-get update 更新apt,不更新apt可能某些软件安装不了
2.集群、单节点模式都需要用到SSH登陆(类似于远程登陆),Ubuntu默认安装了SSH client,另外还需要安装SSH server
3.安装SSH server 后,可使用ssh localhost命令登录,exit命令退出
4.使用命令cd ~/.ssh/,若没有该目录,请先执行一次 ssh localhost 命令,然后exit
5.利用 ssh-keygen 生成秘钥,并将秘钥加入授权
6.再用ssh localhost 命令,就可以实现无密登陆了:
7.使用 ps -e |grep ssh 查看是否安装成功:
(三)配置java环境
1.安装Java环境(需要联网)
2.使用命令 gedit ~/.bashrc 配置环境变量文件.bashrc
3.配置Java的环境变量,在文件最前面或最后面添加如下一行(等号前后不能有空格),然后保存退出
4.使用 source ~/.bashrc 命令使环境变量生效:
5.使用一下命令检查是否配置是否正确:
(四)安装Hadoop
下载 hadoop-2.7.1.tar 压缩文件:https://pan.baidu.com/s/1gRhbNRwOoOtHFHg5YiHQPg fg8w
1.将 hadoop-2.7.1.tar 压缩文件解压并重命名为hadoop,然后放到windows的 s 共享文件中,在Ubuntu的shell中使用命令 sudo cp /mnt/share/hadoop /usr/local 将hadoop文件复制到 /usr/local 目录下
2.查看文件是否复制成功
3.修改文件权限
4.查看修改结果
5.检查Hadoop是否可用
(五)运行Hadoop单机模式的例子
1.创建输入文件
2.将配置文件作为输入文件
3.运行grep例子
4.查看实例运行结果
5.Hadoop默认不会覆盖结果文件,再次运行上面实例会提示错误,需要现将 ./output 删除
(六)Hadoop伪分布式配置
下载Hadoop伪分布式配置文件的主要内容:https://pan.baidu.com/s/1YB3fjT4XZbhbjHWUzm0rsw ,u3mz
1.Hadoop配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改配置文件有 core-site.xml 和 hdfs-site.xml 。
(1)修改配置文件 core-site.xml :
(2)修改配置文件 hdfs-site.xml :
2.文件配置完成后,执行NameNode格式化
3.成功会有以下提示
4.开启NameNode和DataNode的守护进程
5.若出现SSH提示,输入yes即可
6.通过jps命令来判断是否启动成功(若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”,如果 SecondaryNameNode 没有启动,请运行 sbin/stop-dfs.sh 关闭进程,然后再次尝试启动尝试。如果没有 NameNode 或 DataNode ,那就是配置不成功,请仔细检查之前步骤,或通过查看启动日志排查原因。)。如果DataNode无法启动,先删除hadoop.tmp.dir(路径为 /usr/local/hadoop/tmp目录, 再执行hadoop namenode -format
7.运行Hadoop伪分布式实例
8.查看位于HDFS中的输出结果
9.将结果取回本地
10.关闭Hadoop
11.再次启动Hadoop时,无需再对NameNode进行初始化,只要运行 ./sbin/start-dfs.sh 开启 NameNode 和 DataNode 守护进程即可。