第二周总结

本周进行了linux系统的基本配置，在linux系统中配置了Hadoop中所需的环境，并在linux中进行了一些简单的操作

以下是Linux系统上的一些简单操作总结：

文件和目录操作：

ls：列出目录内容
cd：切换目录
mkdir：创建新目录
rm：删除文件或目录
cp：复制文件或目录
mv：移动文件或目录
pwd：显示当前工作目录
cat：查看文件内容
touch：创建新文件或更新文件时间戳
chmod：修改文件或目录的权限
chown：修改文件或目录的所有者
chgrp：修改文件或目录的所属组
文件查找和过滤：

find：按条件查找文件
grep：在文件中搜索指定模式
head：显示文件开头部分
tail：显示文件结尾部分
sort：对文件内容进行排序
wc：统计文件的行数、字数和字符数
进程管理：

ps：列出进程
top：动态显示系统进程和资源使用情况
kill：终止进程
网络操作：

ping：测试网络连通性
ifconfig：查看和配置网络接口信息
ssh：远程登录和执行命令
scp：在本地和远程主机之间复制文件
压缩和解压：

tar：打包和解包文件
gzip：压缩和解压文件
zip：创建和解压ZIP文件

配置Hadoop环境需要进行以下步骤：

下载Hadoop：从Hadoop官方网站（https://hadoop.apache.org/）下载适合您系统的Hadoop软件包。
解压Hadoop：将下载的Hadoop软件包解压到您选择的目录中。
配置环境变量：编辑 ~/.bashrc 或 /etc/environment 文件，将Hadoop的安装路径添加到PATH 环境变量中。例如，export PATH=$PATH:/path/to/hadoop/bin。保存文件后，使用 source 命令使配置生效。
配置Hadoop环境：进入Hadoop安装目录，编辑 etc/hadoop/hadoop-env.sh 文件，设置Java环境变量 JAVA_HOME 。例如，export JAVA_HOME=/path/to/java，将 /path/to/java 替换为您系统中Java的安装路径。
配置Hadoop核心文件：编辑 etc/hadoop/core-site.xml 文件，配置Hadoop的核心参数，例如文件系统的默认URI、临时目录等。
配置Hadoop分布式文件系统（HDFS）：编辑 etc/hadoop/hdfs-site.xml 文件，配置HDFS的参数，例如数据块大小、副本数量等。
配置YARN资源管理器：编辑 etc/hadoop/yarn-site.xml 文件，配置YARN的参数，例如集群资源、队列设置等。
配置节点管理器：编辑 etc/hadoop/yarn-site.xml 文件，配置每个节点上的节点管理器（NodeManager）参数，例如内存分配、日志目录等。
配置MapReduce：编辑 etc/hadoop/mapred-site.xml 文件，配置MapReduce的参数，例如任务调度器、框架设置等。
配置主机映射：编辑 etc/hadoop/workers 文件，并在每行中添加集群中的主机名或IP地址，每个主机一行。
格式化HDFS：在Hadoop安装目录下，使用命令 bin/hdfs namenode -format 格式化HDFS。
启动Hadoop：使用命令 sbin/start-all.sh 启动Hadoop集群。这将启动HDFS的各个组件以及YARN的资源管理器和节点管理器。
验证Hadoop：通过命令 jps 检查是否有相关的Hadoop进程运行。通过浏览器访问Hadoop管理界面（通常是http://localhost:50070/）来验证Hadoop集群的状态。

下周进行hadoop在linux系统上的实践操作，学习大数据的一些入门知识

posted on 2023-07-23 16:58 杨申龙阅读(24) 评论(0) 收藏举报

刷新页面返回顶部

第二周总结

公告