hadoop之hdfs命令详解

本篇主要对hadoop命令和hdfs命令进行阐述，yarn命令会在之后的文章中体现

hadoop fs命令可以用于其他文件系统，不止是hdfs文件系统内，也就是说该命令的使用范围更广可以用于HDFS、Local FS等不同的文件系统。而hdfs dfs命令只用于HDFS文件系统；

一、hadoop命令

使用语法：hadoop [--config confdir] COMMAND #其中config用来覆盖默认的配置

##command #子命令
fs                   run a generic filesystem user client
version              print the version
jar <jar>            run a jar file
checknative [-a|-h]  check native hadoop and compression libraries availability
distcp <srcurl> <desturl> copy file or directories recursively
archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
classpath            prints the class path needed to get the
credential           interact with credential providers Hadoop jar and the required libraries
daemonlog            get/set the log level for each daemon
s3guard              manage data on S3
trace                view and modify Hadoop tracing settings

1、archive

创建一个hadoop压缩文件，详细的可以参考 http://hadoop.apache.org/docs/r2.7.0/hadoop-archives/HadoopArchives.html

使用格式：hadoop archive -archiveName NAME -p <parent path> <src>* <dest> #-p 可以同时指定多个路径

实例：

[hive@mwpl003 ~]$ hadoop fs -touchz /tmp/test/a.txt
[hive@mwpl003 ~]$ hadoop fs -ls /tmp/test/
Found 1 items
-rw-r--r--   3 hive supergroup          0 2019-09-18 13:50 /tmp/test/a.txt
[hive@mwpl003 ~]$ hadoop archive -archiveName test.har -p  /tmp/test/a.txt -r 3 /tmp/test
19/09/18 13:52:58 INFO mapreduce.JobSubmitter: number of splits:1
19/09/18 13:52:58 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1565571819971_6988
19/09/18 13:52:58 INFO impl.YarnClientImpl: Submitted application application_1565571819971_6988
19/09/18 13:52:58 INFO mapreduce.Job: The url to track the job: http://ip_address:8088/proxy/application_1565571819971_6988/
19/09/18 13:52:58 INFO mapreduce.Job: Running job: job_1565571819971_6988
19/09/18 13:53:04 INFO mapreduce.Job: Job job_1565571819971_6988 running in uber mode : false
19/09/18 13:53:04 INFO mapreduce.Job:  map 0% reduce 0%
19/09/18 13:53:08 INFO mapreduce.Job:  map 100% reduce 0%
19/09/18 13:53:13 INFO mapreduce.Job:  map 100% reduce 100%
19/09/18 13:53:13 INFO mapreduce.Job: Job job_1565571819971_6988 completed successfully
19/09/18 13:53:13 INFO mapreduce.Job: Counters: 49
        File System Counters
                FILE: Number of bytes read=80
                FILE: Number of bytes written=313823
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=264
                HDFS: Number of bytes written=69
                HDFS: Number of read operations=14
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=8
        Job Counters 
                Launched map tasks=1
                Launched reduce tasks=1
                Other local map tasks=1
                Total time spent by all maps in occupied slots (ms)=7977
                Total time spent by all reduces in occupied slots (ms)=12015
                Total time spent by all map tasks (ms)=2659
                Total time spent by all reduce tasks (ms)=2403
                Total vcore-milliseconds taken by all map tasks=2659
                Total vcore-milliseconds taken by all reduce tasks=2403
                Total megabyte-milliseconds taken by all map tasks=8168448
                Total megabyte-milliseconds taken by all reduce tasks=12303360
        Map-Reduce Framework
                Map input records=1
                Map output records=1
                Map output bytes=59
                Map output materialized bytes=76
                Input split bytes=97
                Combine input records=0
                Combine output records=0
                Reduce input groups=1
                Reduce shuffle bytes=76
                Reduce input records=1
                Reduce output records=0
                Spilled Records=2
                Shuffled Maps =1
                Failed Shuffles=0
                Merged Map outputs=1
                GC time elapsed (ms)=91
                CPU time spent (ms)=2320
                Physical memory (bytes) snapshot=1189855232
                Virtual memory (bytes) snapshot=11135381504
                Total committed heap usage (bytes)=3043491840
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters 
                Bytes Read=167
        File Output Format Counters 
                Bytes Written=0
[hive@mwpl003 ~]$ hadoop fs -ls /tmp/test/
Found 2 items
-rw-r--r--   3 hive supergroup          0 2019-09-18 13:50 /tmp/test/a.txt
drwxr-xr-x   - hive supergroup          0 2019-09-18 13:53 /tmp/test/test.har

[hive@mwpl003 ~]$ hadoop fs -ls /tmp/test/test.har/
Found 4 items
-rw-r--r--   3 hive supergroup          0 2019-09-18 13:53 /tmp/test/test.har/_SUCCESS
-rw-r--r--   3 hive supergroup         55 2019-09-18 13:53 /tmp/test/test.har/_index
-rw-r--r--   3 hive supergroup         14 2019-09-18 13:53 /tmp/test/test.har/_masterindex
-rw-r--r--   3 hive supergroup          0 2019-09-18 13:53 /tmp/test/test.har/part-0

解压：
hadoop distcp har:///tmp/test/test.har /tmp/test1
hdfs dfs -cp har:///tmp/test/test.har /tmp/test1

2、checknative

检查hadoop的原生代码，一般人用不到

使用语法：hadoop checknative [-a] [-h]
-a 检查所有的库
-h 显示帮助

3、classpath

打印hadoop jar或者库的类路径

使用语法：hadoop classpath [--glob |--jar <path> |-h |--help]

4、credential

管理凭证供应商的凭证、密码和secret(有关秘密信息）

使用语法：hadoop credential <subcommand> [options]

5、distcp（比较常用）

distributed copy的缩写（望文生义),主要用于集群内/集群之间复制文件。需要使用到mapreduce

使用语法：hadoop distcp [-option] hdfs://source hdfs://dest
详细见：http://hadoop.apache.org/docs/r2.7.0/hadoop-distcp/DistCp.html

常用的几个选项：
-m <num_maps>  #指定了拷贝数据时map的数目。请注意并不是map数越多吞吐量越大
-i               #忽略失败
-log <logdir>  #记录日志到 <logdir>
-update        #当目标集群上的文件不存在或文件不一致时，才会从源集群拷贝
-overwrite     #覆盖目标集群上的文件
-filter        #过滤不需要复制的文件
-delete        #删除目标文件存在，但不存在source中的文件

6、fs

与hdfs dfs同用

查看帮助：hadoop fs -help

详细查看：http://hadoop.apache.org/docs/r2.7.0/hadoop-project-dist/hadoop-common/FileSystemShell.html

包括如下一些子命令：

appendToFile, cat, checksum, chgrp, chmod, chown, copyFromLocal, copyToLocal, count, cp, createSnapshot, deleteSnapshot, df, du, expunge, find, get, getfacl, getfattr, getmerge, help, ls, mkdir, moveFromLocal, moveToLocal, mv, put, renameSnapshot, rm, rmdir, setfacl, setfattr, setrep, stat, tail, test, text, touchz

在这里我想各位都应该比较熟悉linux的基本操作命令了，所以这些命令用起来比较简单

6.1、appendToFile

appendToFile  #追加一下本地文件到分布式文件系统
Usage: hadoop fs -appendToFile <localsrc> ... <dst>
example：
hadoop fs -appendToFile localfile1 localfile2 /user/hadoop/hadoopfile
hadoop fs -appendToFile - hdfs://nn.example.com/hadoop/hadoopfile  #表示从标准输入输入数据到hadoopfile中，ctrl+d 结束输入

6.2、cat

cat   #查看文件内容
Usage: hadoop fs -cat URI [URI ...]
example：
hadoop fs -cat hdfs://nn1.example.com/file1 hdfs://nn2.example.com/file2
hadoop fs -cat file:///file3 /user/hadoop/file4

6.3、checksum

checksum  #返回被检查文件的格式
Usage: hadoop fs -checksum URI
example：
[hive@mwpl003 ~]$  hadoop fs -checksum /tmp/test/test.txt
/tmp/test/test.txt      MD5-of-0MD5-of-512CRC32C        000002000000000000000000fde199c1517b7b26b0565ff6b0f46acc

6.4、chgrp

chgrp   #变更文件目录的所属组
Usage: hadoop fs -chgrp [-R] GROUP URI [URI ...]

6.5、chmod

chmod  #修改文件或者目录的权限
Usage: hadoop fs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI ...]

6.6、chown

chown  #修改目录或者文件的拥有者和所属组
Usage: hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]

6.7、copyFromLocal

copyFromLocal #从本地复制文件或者文件夹到hdfs，类似put命令
Usage: hadoop fs -copyFromLocal [-f] <localsrc> URI  #其中-f选项会覆盖与原文件一样的目标路径文件
example：
hadoop fs -copyFromLocal start-hadoop.sh  /tmp

6.8、copyToLocal

copyToLocal  #类似get命令，从hdfs获取文件到本地
Usage: hadoop fs -copyToLocal [-ignorecrc] [-crc] URI <localdst>

6.9、count

count  #计算 目录，文件，字节数
Usage: hadoop fs -count [-q] [-h] [-v] <paths>

6.10、cp

cp     #复制源文件到目标文件
Usage: hadoop fs -cp [-f] [-p | -p[topax]] URI [URI ...] <dest>
Example:
hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2
hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir

6.11、Snapshot相关

createSnapshot #创建快照
deleteSnapshot #删除快照
详细见：http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html
HDFS快照是文件系统的只读时间点副本。可以在文件系统的子树或整个文件系统上拍摄快照。快照的一些常见用例是数据备份，防止用户错误和灾难恢复。
在创建快照前，要设置一个目录为snapshottable（需要管理员权限），表示可以在该目录中创建快照
hdfs dfsadmin -allowSnapshot <path> #在path中启用快照
hdfs dfsadmin -disallowSnapshot <path> #在path中禁止快照
hdfs dfs -ls /foo/.snapshot #列出快照目录下的所有快照
hdfs dfs -createSnapshot <path> [<snapshotName>] #创建快照，快照名默认为时间戳格式
hdfs dfs -deleteSnapshot <path> <snapshotName> #删除快照
hdfs dfs -renameSnapshot <path> <oldName> <newName> #快照重命名
hdfs lsSnapshottableDir #获取快照目录

6.12、df

df  #展示空间使用情况
Usage: hadoop fs -df [-h] URI [URI ...]

6.13、du

du  #展示目录包含的文件的大小
Usage: hadoop fs -du [-s] [-h] URI [URI ...]
Example:
hadoop fs -du /user/hadoop/dir1 /user/hadoop/file1 hdfs://nn.example.com/user/hadoop/dir1

6.14、expunge

expunge  #清空回收站（不要瞎用）
Usage: hadoop fs -expunge

6.15、find

find   #查找
Usage: hadoop fs -find <path> ... <expression> ...
-name pattern
-iname pattern #忽略大小写
-print
-print0Always
Example:
hadoop fs -find / -name test -print

6.16、get

get #获取数据，类似于copyToLocal.但有crc校验
Usage: hadoop fs -get [-ignorecrc] [-crc] <src> <localdst>
Example:
hadoop fs -get /tmp/input/hadoop/*.xml /home/hadoop/testdir/

6.17、getfacl

getfacl #展示目录或者文件的ACL权限
Usage: hadoop fs -getfacl [-R] <path>
[hive@mwpl003 ~]$ hadoop fs -getfacl -R  /tmp/test
# file: /tmp/test
# owner: hive
# group: supergroup
getfacl: The ACL operation has been rejected.  Support for ACLs has been disabled by setting dfs.namenode.acls.enabled to false.

6.18、getfattr

getfattr #显示文件或目录的扩展属性名称和值
Usage: hadoop fs -getfattr [-R] -n name | -d [-e en] <path>
-n name和 -d是互斥的，
-d表示获取所有属性。
-R表示循环获取； 
-e en 表示对获取的内容编码，en的可以取值是 “text”, “hex”, and “base64”.
Examples:
hadoop fs -getfattr -d /file
hadoop fs -getfattr -R -n user.myAttr /dir

6.19、getmerge

getmerge  #合并文件
Usage: hadoop fs -getmerge <src> <localdst> [addnl]
hadoop fs -getmerge   /src  /opt/output.txt
hadoop fs -getmerge  /src/file1.txt /src/file2.txt  /output.txt

6.20、ls

ls   #罗列文件
Usage: hadoop fs -ls [-d] [-h] [-R] [-t] [-S] [-r] [-u] <args>

6.21、mkdir

mkdir #创建文件夹
Usage: hadoop fs -mkdir [-p] <paths>
Example:
hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2
hadoop fs -mkdir hdfs://nn1.example.com/user/hadoop/dir hdfs://nn2.example.com/user/hadoop/dir

6.22、moveFromLocal

moveFromLocal #把本地文件移动到hdfs上
Usage: hadoop fs -moveFromLocal <localsrc> <dst>

6.23、moveToLocal

moveToLocal   #把hdfs文件移动到本地上
Usage: hadoop fs -moveToLocal [-crc] <src> <dst>

6.24、mv

mv   #移动文件，但是可以一次移动多个
Usage: hadoop fs -mv URI [URI ...] <dest>
Example:
hadoop fs -mv /user/hadoop/file1 /user/hadoop/file2
hadoop fs -mv hdfs://nn.example.com/file1 hdfs://nn.example.com/file2 hdfs://nn.example.com/file3 hdfs://nn.example.com/dir1

6.25、put

put  #把文件复制到hdfs上
Usage: hadoop fs -put <localsrc> ... <dst>
hadoop fs -put localfile hdfs://nn.example.com/hadoop/hadoopfile
hadoop fs -put - hdfs://nn.example.com/hadoop/hadoopfile  #Reads the input from stdin.

6.26、rm

rm  #删除文件
Usage: hadoop fs -rm [-f] [-r |-R] [-skipTrash] URI [URI ...]

6.27、rmdir

rmdir  #删除一个目录
Usage: hadoop fs -rmdir [--ignore-fail-on-non-empty] URI [URI ...]

6.28、setfacl

setfacl  #设置ACL权限
Usage: hadoop fs -setfacl [-R] [-b |-k -m |-x <acl_spec> <path>] |[--set <acl_spec> <path>]
-b 删除除基本acl项之外的所有项。保留用户、组和其他用户
-k 删除所有的默认ACL权限
-R 递归操作
-m 修改ACL权限，保留旧的，添加新的
-x 删除指定ACL权限
--set 完全替换现有的ACL权限
Examples:
hadoop fs -setfacl -m user:hadoop:rw- /file
hadoop fs -setfacl -x user:hadoop /file
hadoop fs -setfacl -b /file
hadoop fs -setfacl -k /dir
hadoop fs -setfacl --set user::rw-,user:hadoop:rw-,group::r--,other::r-- /file
hadoop fs -setfacl -R -m user:hadoop:r-x /dir
hadoop fs -setfacl -m default:user:hadoop:r-x /dir

6.29、setfattr

setfattr  #设置额外的属性
Usage: hadoop fs -setfattr -n name [-v value] | -x name <path>
-b 删除除基本acl项之外的所有项。保留用户、组和其他用户
-n 额外属性名
-v 额外属性值
-x name 删除额外属性
Examples:
hadoop fs -setfattr -n user.myAttr -v myValue /file
hadoop fs -setfattr -n user.noValue /file
hadoop fs -setfattr -x user.myAttr /file

6.30、setrep

setrep  #改变文件的复制因子（复本）
Usage: hadoop fs -setrep [-R] [-w] <numReplicas> <path>
Example:
hadoop fs -setrep -w 3 /user/hadoop/dir1

6.31、stat

stat #获取文件的时间
Usage: hadoop fs -stat [format] <path> ...
Example:
hadoop fs -stat "%F %u:%g %b %y %n" /file

6.32、tail

tail #展示文件到标准输出
Usage: hadoop fs -tail [-f] URI

6.33、test

test  #测试
Usage: hadoop fs -test -[defsz] URI
-d 判断是否是目录
-e 判断是否存在
-f 判断是否是文件
-s 判断目录是否为空
-z 判断文件是否为空
Example:
hadoop fs -test -e filename

6.34、text

text #可以用来看压缩文件
Usage: hadoop fs -text <src>

6.35、touchz

touchz  #创建一个空文件
Usage: hadoop fs -touchz URI [URI ...]

7、jar

jar  #运行一个jar文件
Usage: hadoop jar <jar> [mainClass] args...
Example:
hadoop jar ./test/wordcount/wordcount.jar org.codetree.hadoop.v1.WordCount /test/chqz/input /test/chqz/output的各段的含义：
(1) hadoop：${HADOOP_HOME}/bin下的shell脚本名。
(2) jar：hadoop脚本需要的command参数。
(3) ./test/wordcount/wordcount.jar：要执行的jar包在本地文件系统中的完整路径，参递给RunJar类。
(4) org.codetree.hadoop.v1.WordCount：main方法所在的类，参递给RunJar类。
(5) /test/chqz/input：传递给WordCount类，作为DFS文件系统的路径，指示输入数据来源。
(6) /test/chqz/output：传递给WordCount类，作为DFS文件系统的路径，指示输出数据路径。
hadoop推荐使用yarn jar替代hadoop jar 详情见：http://hadoop.apache.org/docs/r2.8.0/hadoop-yarn/hadoop-yarn-site/YarnCommands.html#jar

8、key

key #用来管理秘钥，基本不用

9、trace

trace  #查看和修改跟踪设置
详情见：http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/Tracing.html

二、hdfs命令

hdfs命令有如下选项：

User Commands： classpath, dfs, fetchdt, fsck, getconf, groups, lsSnapshottableDir, jmxget, oev, oiv, oiv_legacy, snapshotDiff, version,
Administration Commands： balancer, cacheadmin, crypto, datanode, dfsadmin, haadmin, journalnode, mover, namenode, nfs3, portmap, secondarynamenode, storagepolicies, zkfc
Debug Commands： verifyMeta, computeMeta, recoverLease

这里不全详解，详情见：http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html

1、classpath

classpath  #获取jar包或者库的有关类路径
Usage: hdfs classpath [--glob |--jar <path> |-h |--help]

2、dfs

dfs #同上节hadoop fs 命令

3、fetchdt

fetchdt  #从namenode节点获取代理令牌
Usage: hdfs fetchdt <opts> <token_file_path>
详情见：http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html#fetchdt

4、fsck（重要）

hdfs fsck <path>
          [-list-corruptfileblocks |
          [-move | -delete | -openforwrite]
          [-files [-blocks [-locations | -racks | -replicaDetails]]]
          [-includeSnapshots]
          [-storagepolicies] [-blockId <blk_Id>]

-delete    删除损坏的文件
-files    打印正在检查的文件.
-files -blocks    打印块报告
-files -blocks -locations    Print out locations for every block.
-files -blocks -racks    打印每个块的位置
-files -blocks -replicaDetails    打印出每个副本的详细信息.
-includeSnapshots    如果给定路径指示SnapshotTable目录或其下有SnapshotTable目录，则包括快照数据
-list-corruptfileblocks    打印出所属丢失块和文件的列表.
-move    将损坏的文件移动到/lost+found.
-openforwrite    打印为写入而打开的文件.
-storagepolicies    打印块的存储策略摘要.
-blockId    打印出有关块的信息.

5、getconf（重要）

hdfs getconf -namenodes #获取namenode节点
hdfs getconf -secondaryNameNodes #获取secondaryNameNodes节点
hdfs getconf -backupNodes  #获取群集中备份节点的列表
hdfs getconf -includeFile  #获取定义可以加入群集的数据节点的包含文件路径
hdfs getconf -excludeFile  #获取定义需要停用的数据节点的排除文件路径
hdfs getconf -nnRpcAddresses #获取namenode rpc地址
hdfs getconf -confKey [key] #从配置中获取特定密钥 ，可以用来返回hadoop的配置信息的具体值

6、groups

groups #返回用户的所属组
Usage: hdfs groups [username ...]

7、lsSnapshottableDir

lsSnapshottableDir #查看快照目录
Usage: hdfs lsSnapshottableDir [-help]

8、jmxget

jmxget  #从特定服务获取jmx信息
Usage: hdfs jmxget [-localVM ConnectorURL | -port port | -server mbeanserver | -service service]

9、oev

oev  #离线编辑查看器
Usage: hdfs oev [OPTIONS] -i INPUT_FILE -o OUTPUT_FILE

10、oiv

oiv  #离线映像编辑查看器
Usage: hdfs oiv [OPTIONS] -i INPUT_FILE

11、snapshotDiff

snapshotDiff  #对比快照信息的不同
Usage: hdfs snapshotDiff <path> <fromSnapshot> <toSnapshot>
详情见：http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html#Get_Snapshots_Difference_Report

12、balancer（重要）

balancer
 hdfs balancer
          [-threshold <threshold>]
          [-policy <policy>]
          [-exclude [-f <hosts-file> | <comma-separated list of hosts>]]
          [-include [-f <hosts-file> | <comma-separated list of hosts>]]
          [-source [-f <hosts-file> | <comma-separated list of hosts>]]
          [-blockpools <comma-separated list of blockpool ids>]
          [-idleiterations <idleiterations>]
-policy <policy>    datanode (default): 如果每个数据节点都是平衡的，则群集是平衡的.
blockpool: 如果每个数据节点中的每个块池都是平衡的，则群集是平衡的.
-threshold <threshold>    磁盘容量的百分比。这将覆盖默认阈值
-exclude -f <hosts-file> | <comma-separated list of hosts>    排除平衡器正在平衡的指定数据节点
-include -f <hosts-file> | <comma-separated list of hosts>    仅包含要由平衡器平衡的指定数据节点
-source -f <hosts-file> | <comma-separated list of hosts>    仅选取指定的数据节点作为源节点。
-blockpools <comma-separated list of blockpool ids>    平衡器将仅在此列表中包含的块池上运行.
-idleiterations <iterations>    退出前的最大空闲迭代次数。这将覆盖默认的空闲操作（5次）

13、cacheadmin

cacheadmin
Usage: hdfs cacheadmin -addDirective -path <path> -pool <pool-name> [-force] [-replication <replication>] [-ttl <time-to-live>]
hdfs crypto -createZone -keyName <keyName> -path <path>
  hdfs crypto -listZones
  hdfs crypto -provisionTrash -path <path>
  hdfs crypto -help <command-name>
详情见：http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html

14、datanode

datanode #运行datanode
Usage: hdfs datanode [-regular | -rollback | -rollingupgrade rollback]
-regular    正常启动(default).
-rollback    将datanode回滚到以前的版本。这应该在停止datanode并分发旧的hadoop版本之后使用
-rollingupgrade rollback    回滚滚动升级操作

15、dfsadmim（重要）

hdfs dfsadmin [GENERIC_OPTIONS]
          [-report [-live] [-dead] [-decommissioning]]   #报告基本的文件系统信息和统计信息，包括测量所有dns上的复制、校验和、快照等使用的原始空间。
          [-safemode enter | leave | get | wait | forceExit] #安全模式维护命令
           #安全模式在namenode启动时自动进入，当配置的最小块百分比满足最小复制条件时自动离开安全模式。如果namenode检测到任何异常，
           #则它将在安全模式下逗留，直到该问题得到解决。如果异常是故意操作的结果，那么管理员可以使用-safemode forceExit退出安全模式
          [-saveNamespace] #将当前命名空间保存到存储目录并重置编辑日志。需要安全模式
          [-rollEdits] #在活动的namenode上滚动编辑日志
          [-restoreFailedStorage true |false |check] #此选项将打开或者关闭自动尝试还原失败的存储副本。如果失败的存储再次可用，
          #系统将在检查点期间尝试还原编辑和fsimage。“check”选项将返回当前设置
          [-refreshNodes] #重新读取主机并排除文件，以更新允许连接到namenode的数据节点集，以及应解除或重新启用的数据节点集
          [-setQuota <quota> <dirname>...<dirname>]
          [-clrQuota <dirname>...<dirname>]
          [-setSpaceQuota <quota> [-storageType <storagetype>] <dirname>...<dirname>]
          [-clrSpaceQuota [-storageType <storagetype>] <dirname>...<dirname>]
          [-finalizeUpgrade] #完成hdfs的升级。datanodes删除它们以前版本的工作目录，然后namenode执行相同的操作。这就完成了升级过程
          [-rollingUpgrade [<query> |<prepare> |<finalize>]]
          [-metasave filename] #将namenode的主数据结构保存到hadoop.log.dir属性指定的目录中的filename。如果文件名存在，它将被覆盖。
          #该文件包含带namenode的datanodes心跳，等待复制的块，当前正在复制的块，等待删除的块
          [-refreshServiceAcl] #重新加载服务级别授权策略文件
          [-refreshUserToGroupsMappings] #刷新用户到组的映射
          [-refreshSuperUserGroupsConfiguration] #刷新超级用户代理组映射
          [-refreshCallQueue] #从配置重新加载调用队列
          [-refresh <host:ipc_port> <key> [arg1..argn]] #触发由<host:ipc port>上的<key>指定的资源的运行时刷新。之后的所有其他参数都将发送到主机
          [-reconfig <datanode |...> <host:ipc_port> <start |status>] #开始重新配置或获取正在进行的重新配置的状态。第二个参数指定节点类型。目前，只支持重新加载datanode的配置
          [-printTopology] #打印由namenode报告的机架及其节点的树
          [-refreshNamenodes datanodehost:port] #对于给定的数据节点，重新加载配置文件，停止为已删除的块池提供服务，并开始为新的块池提供服务
          [-deleteBlockPool datanode-host:port blockpoolId [force]] #如果传递了force，则将删除给定数据节点上给定block pool id的块池目录及其内容，否则仅当该目录为空时才删除该目录。
          #如果datanode仍在为块池提供服务，则该命令将失败
          [-setBalancerBandwidth <bandwidth in bytes per second>] #更改HDFS块平衡期间每个数据节点使用的网络带宽。<bandwidth>是每个数据节点每秒将使用的最大字节数。
          #此值重写dfs.balance.bandwidthpersec参数。注意：新值在datanode上不是持久的
          [-getBalancerBandwidth <datanode_host:ipc_port>] #获取给定数据节点的网络带宽（字节/秒）。这是数据节点在hdfs块平衡期间使用的最大网络带宽
          [-allowSnapshot <snapshotDir>] #设置快照目录
          [-disallowSnapshot <snapshotDir>] #禁止快照
          [-fetchImage <local directory>] #从namenode下载最新的fsimage并将其保存在指定的本地目录中
          [-shutdownDatanode <datanode_host:ipc_port> [upgrade]] #提交给定数据节点的关闭请求
          [-getDatanodeInfo <datanode_host:ipc_port>] #获取有关给定数据节点的信息
          [-evictWriters <datanode_host:ipc_port>]  #使datanode收回正在写入块的所有客户端。如果由于编写速度慢而挂起退役，这将非常有用
          [-triggerBlockReport [-incremental] <datanode_host:ipc_port>] #触发给定数据节点的块报告。如果指定了“增量”，则为“增量”，否则为完整的块报告
          [-help [cmd]]

16、haadmin（重要）

hdfs haadmin -checkHealth <serviceId>  #检查给定namenode的运行状况
hdfs haadmin -failover [--forcefence] [--forceactive] <serviceId> <serviceId> #在两个namenodes之间启动故障转移
hdfs haadmin -getServiceState <serviceId> #确定给定的namenode是活动的还是备用的
hdfs haadmin -help <command>
hdfs haadmin -transitionToActive <serviceId> [--forceactive] #将给定namenode的状态转换为active
hdfs haadmin -transitionToStandby <serviceId> #将给定namenode的状态转换为standby
详情见：http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithNFS.html

17、journalnode

journalnode #为通过QJM实现的高可用hdfs启动journalnode
Usage: hdfs journalnode

18、mover　　

Usage: hdfs mover [-p <files/dirs> | -f <local file name>]
-f 指定包含要迁移的hdfs文件/目录列表的本地文件
-p 指定要迁移的hdfs文件/目录的空间分隔列表
详情见：http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/ArchivalStorage.html

19、namenode

namenode
hdfs namenode [-backup] |  #开始备份节点
         [-checkpoint] | #检查点开始节点
         [-format [-clusterid cid ] [-force] [-nonInteractive] ] |  #格式化指定的NameNode。 它启动NameNode，
         #对其进行格式化然后将其关闭。 如果名称目录存在，则为-force选项格式。 如果名称目录存在，则-nonInteractive选项将中止，除非指定了-force选项
         [-upgrade [-clusterid cid] [-renameReserved<k-v pairs>] ] | #在分发新的Hadoop版本后，应该使用升级选项启动Namenode
         [-upgradeOnly [-clusterid cid] [-renameReserved<k-v pairs>] ] | #升级指定的NameNode然后关闭它
         [-rollback] | #将NameNode回滚到以前的版本。 应在停止群集并分发旧Hadoop版本后使用此方法
         [-rollingUpgrade <rollback |started> ] |#滚动升级 详情见：http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HdfsRollingUpgrade.html
         [-finalize] |  #不再支持。使用dfsadmin -finalizeUpgrade替换
         [-importCheckpoint] | #从检查点目录加载image并将其保存到当前目录中。 从属性dfs.namenode.checkpoint.dir读取检查点目录
         [-initializeSharedEdits] | #格式化新的共享编辑目录并复制足够的编辑日志段，以便备用NameNode可以启动
         [-bootstrapStandby [-force] [-nonInteractive] [-skipSharedEditsCheck] ] | #允许通过从活动NameNode复制最新的命名空间快照来引导备用NameNode的存储目录
         [-recover [-force] ] | #在损坏的文件系统上恢复丢失的元数据
         [-metadataVersion ] #验证配置的目录是否存在，然后打印软件和映像的元数据版本

20、secondarynamenode

Usage: hdfs secondarynamenode [-checkpoint [force]] | [-format] | [-geteditsize]
-checkpoint [force]    如果EditLog size> = fs.checkpoint.size，则检查SecondaryNameNode。 如果使用force，则检查点与EditLog大小无关
-format    启动期间格式化本地存储
-geteditsize    打印NameNode上未取消选中的事务的数量

21、storagepolicies

storagepolicies #列出所有存储策略
Usage: hdfs storagepolicies
详情见：http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/ArchivalStorage.html

22、zkfc

Usage: hdfs zkfc [-formatZK [-force] [-nonInteractive]]
-formatZK    格式化Zookeeper实例
-force: 如果znode存在，则格式化znode。 
-nonInteractive：如果znode存在，则格式化znode中止，除非指定了-force选项
-h    Display help

23、verifyMeta

verifyMeta  #验证HDFS元数据和块文件。 如果指定了块文件，我们将验证元数据文件中的校验和是否与块文件匹配
Usage: hdfs debug verifyMeta -meta <metadata-file> [-block <block-file>]
-block block-file    用于指定数据节点的本地文件系统上的块文件的绝对路径
-meta metadata-file    数据节点的本地文件系统上的元数据文件的绝对路径

24、computeMeta

computeMeta #从块文件计算HDFS元数据。 如果指定了块文件，我们将从块文件计算校验和，并将其保存到指定的输出元数据文件中
Usage: hdfs debug computeMeta -block <block-file> -out <output-metadata-file>
-block block-file    数据节点的本地文件系统上的块文件的绝对路径
-out output-metadata-file    输出元数据文件的绝对路径，用于存储块文件的校验和计算结果。

25、recoverLease

recoverLease #恢复指定路径上的租约。 该路径必须驻留在HDFS文件系统上。 默认重试次数为1
Usage: hdfs debug recoverLease -path <path> [-retries <num-retries>]
[-path path]    要恢复租约的HDFS路径
[-retries num-retries]    客户端重试调用recoverLease的次数。 默认重试次数为1

更多hadoop生态文章请见：hadoop生态系列

posted @ 2019-09-24 20:15 一寸HUI 阅读(19112) 评论(0) 收藏举报

刷新页面返回顶部

HZhuizai

hadoop之hdfs命令详解

公告