云计算hadoop安装ubantu系统
第一步
1.1安装ubantu到虚拟机,配置vmtools,摘自:https://www.cnblogs.com/fanqisoft/p/10744800.html Ubuntu18.04 VMtools的安装与卸载
1.2 创建hadoop用户,1.使用快捷键ctrl+alt+t 打开终端,2.命令sudo useradd -m hadoop -s /bin/bash -m:自动建立用户的登入目录;-s:指定用户登入后所使用的shell;3.命令sudo passwd hadoop 修改用户hadoop的密码 4.命令:sudo adduser hadoop sudo 增加用户hadoop用户的管理员权限。
1.3换源,更换外国源为阿里云的源,打开"系统设置",至“软件和更新”,至勾选“源代码”打勾,进入选择“中国服务器”至“其它站点”,选择“mirrors.aliyun.com”,点击“选择服务器”,至关闭,至重新载入。
1.4执行sudo apt-get update ,更新apt-get,再sudo apt-get install vim 安装vim编辑器 ,再安装 sudo apt-get install openssh-server 安装ssh,ssh localhost 登录本机,按提示输入yes提示输入用户密码,就登录到本机了。
设置本地无密钥登录 利用ssh-keygen生成密钥,并将密钥加入到授权中,命令:cd ~/.ssh/ #若没有该目录,请先执行一次ssh localhost ,命令:ssh-keygen -t rsa #会有提示,按enter键即可 ,命令:cat ./id_rsa.pub >> ./authorized_keys #加入授权 此时再执行ssh localhost命令,无需输入密码就可以直接登录了。
1.5 安装java环境, sudo apt-get install openjdk-7-jre openjdk-7-jdk 或 sudo apt-get install default-jre default -jdk ,命令:dpkg -L openjdk-7-jdk | grep '/bin/javac' (执行openjdk7-jdk才需要),再命令:vim ~/.bashrc 编辑文件添加路径 export JAVA_HOME = /usr/lib/jvm/java-7-openjdk-amd64 或 export JAVA_HOME = /usr/lib/jvm/default-java 保存退出编辑,source ~/.bashrc (相同) 更新环境变量 , echo $JAVA_HOME #检验变量值 再命令:java -version 再命令: $JAVA_HOME/bin/java -version #与直接执行 java -version 一样
至此完成了java安装,可以进行hadoop的安装。
1.6 安装hadoop,官网下载(http://mirrors.cnnic.cn/apache/hadoop/common/),下载文件hadoop-2.7.1.tar.gz到本地,用sudo tar -zxf ~/......./hadoop-2.7.1.tar.gz -C /usr/local #解压到/usr/local目录中 ,命令:cd /usr/local/ ,命令:sudo mv ./hadoop-2.7.1/ ./hadoop # 将文件夹名改为hadoop ,命令:sudo chown -R hadoop ./hadoop #修改文件权限
检查hadoop是否安装成功,命令:cd /usr/local/hadoop 命令: ./bin/hadoop version 查看hadoop版本信息。
1.7 单机配置模式:命令:cd /usr/local/hadoop 命令:./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar 显示例子信息
cd /usr/local/hadoop 该变目录到这,mkdir input 创建input文件夹 cp ./etc/hadoop/*.xml ./input #将配置文件复制到input目录下, 命令: ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+' , 命令:cat ./output/* #查看运行结果
rm -r ./output 需要注意的是,hadoop默认不会覆盖结果文件,因此,再次运行上面的实例会提示出错。如果要再次运行,需要先使用如下命令把output文件夹删除。
伪分布式模式配置:hadoop可以在单个节点(一台机器)上以伪分布式的方式运行,同一个节点既作为名称节点(Name Node),也作为数据节点(Data Node),读取的是分布式文件系统hdfs中的文件。
1.修改配置文件:需要修改配置相关文件,才能够让hadoop在伪分布式模式下顺利运行。(hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中),进行伪分布式模式配置时,需要修改2个配置文件,即core-site.xml和hdfs-site.xml。
2.用vim编辑器打开core-site.xml文件,修改文件内容为
<configuration> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
用vim编辑器打开hdfs-site.xml文件,修改文件内容为<configuration>
<property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property> </configuration>
命令:cd /usr/local/hadoop 命令: ./bin/hdfs namenode -format 提示has been successfully formatted 和 Exitiong with status 0的提示
3.启动hadoop : 命令: cd /usr/local/hadoop 命令:./sbin/start-dfs.sh #start-dfs.sh; 是一个完整的可执行文件,中间没有空格。
在命令行输入:jps查看是否启动成功hadoop,有name node ,data node 和secondary name node 就成功启动了hadoop文件。
useradd 命令拓展:
-c<备注>:加上备注文字bai。备注文字会保存在passwd的备注栏位中;du
-d<登入目录>:指定用户登入时的启始目录; -D:变更预设值;
-e<有效期限>:指定帐号的有效期限;
-f<缓冲天数>:指定在密码过期后多少天即关闭该帐号;
-g<群组>:指定用户所属的群组;
-G<群组>:指定用户所属的附加群组;
-m:自动建立用户的登入目录;
-M:不要自动建立用户的登入目录;
-n:取消建立以用户名称为名的群组;
-r:建立系统帐号;
-s:指定用户登入后所使用的shell;
-u:指定用户id。