hdfs-yarn大数据常用命令

一, yarn

7:50-8点这段时间没有任务

8-1.10  collect的作业多

8.30-9点大作业

#查看yarn的环境变量设置:

yarn envvars
WARNING: YARN_OPTS has been replaced by HADOOP_OPTS. Using value of YARN_OPTS.
JAVA_HOME='/usr/java/jdk1.8.0_181-cloudera'
HADOOP_YARN_HOME='/opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/lib/hadoop/libexec/../../hadoop-yarn'
YARN_DIR='./'
YARN_LIB_JARS_DIR='lib'
HADOOP_CONF_DIR='/etc/hadoop/conf'
HADOOP_TOOLS_HOME='/opt/cloudera/parcels/CDH-6.2.0-1.cdh6.2.0.p0.967373/lib/hadoop'
HADOOP_TOOLS_DIR='share/hadoop/tools'
HADOOP_TOOLS_LIB_JARS_DIR='share/hadoop/tools/lib'

#看yarn中的作业

yarn application -list

yarn application -list -appStates ALL  #查看所有的作业

#看某个作业的详细信息:

yarn application -status application_1565872581822_5969

#查看相应状态的作业:

yarn application --list -appStates FINISHED >1.txt

cat 1.txt |grep 2019-08-11

状态有:

state can be one of the following:
ALL,NEW,NEW_SAVING,SUBMITTED,ACCEPTED,RUN
NING,FINISHED,FAILED,KILLED

 

二.jps

jps

jps -m 输出传递给main方法的参数

jps  -l 输出应用程序main class的完整package名
jps  -v 输出传递给JVM的参数

 

三 HDFS

#磁盘满查大小

hdfs dfs -du -h /
662 1.9 K /1.txt
66.0 M 197.9 M /apps
14.6 M 43.8 M /checkpoints
204.6 K 613.8 K /flink
6.0 K 18.1 K /logs
30.3 G 90.8 G /tmp
315.7 G 946.5 G /user

#删除目录

hdfs dfs -rm -r -skipTrash

 

#distcp

指定队列:

#算法s3数据迁移到oss:

hadoop distcp -Dmapred.job.queue.name=root.airflow -overwrite -m 20 s3a://opay-bi/your目录/ oss://opay-datalake/algo_migration/

hadoop distcp -Dmapred.job.queue.name=root.airflow -i -overwrite -m 10 oss://opay-datalake/oride_data_bak oss://opay-datalake/oride_tmp/

nohup hadoop dfs -cp oss://opay-datalake/oride_data_bak oss://opay-datalake/oride_data_bak_tmp

hadoop distcp -i -overwrite -m 10 oss://opay-datalake/oride_data_bak oss://opay-datalake/oride_tmp/

 

清空回收站,不建议使用,特别是生产环境,容易出问题
hdfs dfs -expunge

1.如何查看hdfs或hadoop子命令的帮助信息,如ls子命令
hdfs dfs -help ls
hadoop fs -help ls #两个命令等价
2.查看hdfs文件系统中指定目录的文件列表。对比linux命令ls
hdfs dfs -ls /
hdfs dfs -ls -R /
3.在hdfs文件系统中创建文件
hdfs dfs -touchz /edits.txt
4.向HDFS文件中追加内容
hadoop fs -appendToFile edit1.xml /edits.txt #将本地磁盘当前目录的edit1.xml内容追加到HDFS根目录 的edits.txt文件
5.查看HDFS文件内容
hdfs dfs -cat /edits.txt
6.从本地路径上传文件至HDFS
#用法:hdfs dfs -put /本地路径 /hdfs路径
hdfs dfs -put /linux本地磁盘文件 /hdfs路径文件
hdfs dfs -copyFromLocal /linux本地磁盘文件 /hdfs路径文件 #跟put作用一样
hdfs dfs -moveFromLocal /linux本地磁盘文件 /hdfs路径文件 #跟put作用一样,只不过,源文件被拷贝成功后,会被删除
7.在hdfs文件系统中下载文件
hdfs dfs -get /hdfs路径 /本地路径
hdfs dfs -copyToLocal /hdfs路径 /本地路径 #根get作用一样
8.在hdfs文件系统中创建目录
hdfs dfs -mkdir /shell
9.在hdfs文件系统中删除文件
hdfs dfs -rm /edits.txt
10.在hdfs文件系统中修改文件名称(也可以用来移动文件到目录)
hdfs dfs -mv /xcall.sh /call.sh
hdfs dfs -mv /call.sh /shell
11.在hdfs中拷贝文件到目录
hdfs dfs -cp /xrsync.sh /shell
12.递归删除目录
hdfs dfs -rm -r /shell
13.列出本地文件的内容(默认是hdfs文件系统)
hdfs dfs -ls file:///home/hadoop/
14.查找文件
# linux find命令
find . -name 'edit*'
# HDFS find命令
hadoop fs -find / -name part-r-00000 # 在HDFS根目录中,查找part-r-00000文件

1.2、hdfs与getconf结合使用
1.获取NameNode的节点名称(可能有多个)
hdfs getconf -namenodes
2.获取hdfs最小块信息(配置文件中设置的)
hdfs getconf -confKey dfs.namenode.fs-limits.min-block-size
用相同命令可获取其他的属性值
3.查找hdfs的NameNode的RPC地址
hdfs getconf -nnRpcAddresses
1.3、hdfs与dfsadmin结合使用
1.查看hdfs dfsadmin的帮助信息
hdfs dfsadmin
2.同样要学会借助help查看具体命令的帮助信息
hdfs dfsadmin -help safemode
3.查看当前的模式
hdfs dfsadmin -safemode get
4.进入/退出安全模式
hdfs dfsadmin -safemode enter # 进入安全模式
hdfs dfsadmin -safemode leave #退出安全模式

1.4、hdfs与fsck结合使用
fsck指令显示HDFS块信息
hdfs fsck /02-041-0029.mp4 -files -blocks -locations # 查看文件02-041-0029.mp4的块信息
1.5、 其他命令
1.检查压缩库本地安装情况
hadoop checknative
2.格式化名称节点(慎用,一般只在初次搭建集群,使用一次;格式化成功后,不要再使用)
hadoop namenode -format
3.执行自定义jar包
hadoop jar /kkb/install/hadoop-2.6.0-cdh5.14.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.2.jar pi 10 10
yarn jar /kkb/install/hadoop-2.6.0-cdh5.14.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.2.jar pi 10 10

 

posted on 2019-08-19 08:49  锋锋2019  阅读(1221)  评论(0编辑  收藏  举报

导航