hadoop 常用命令

1,hadoop fs -cat /shining/temp.txt.gz | zcat | head -1
hadoop fs -text /shining/temp.txt.gz | head -1
查看gz文件的第一行数据
参考资料:https://blog.csdn.net/java___boy/article/details/103178672
2,hadoop fs -stat hdfs://xx/xx
返回(目录或者文件)文件的修改时间
3,hadoop fs -ls 是有文件的详细的信息的

4,随机返回指定行数的样本数据
hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5

5,返回前几行的样本数据
hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | head -100

6,返回最后几行的样本数据
hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | tail -5

7,查看文本行数
hadoop fs -cat hdfs://172.16.0.226:8020/test/sys_dict/sysdict_case_type.csv |wc -l

4-7的参考资料:https://blog.csdn.net/github_38358734/article/details/79272521

8,假设在你的hdfs集群上有一个/user/hadoop/output目录

里面有作业执行的结果(多个文件组成)part-000000,part-000001,part-000002

然后你想把所有的文件合拢来一起看 可以使用命令:hadoop fs -getmerge /user/hadoop/output local_file(.gz)
hadoop fs -getmerge ${data_path}/${yesterday}/ data_${yesterday}.gz
可以合并为压缩文件

9,gunzip data_${yesterday}.gz 解压文件 解压以后 data_${yesterday}.gz消失 生成后feature_data_${yesterday}文件

10,查看文件夹下 各个目录的总大小:hdfs dfs -du -h
查看文件夹下 各个目录的总大小:hdfs dfs -du -s -h 目录的总大小

11 删除文件 bin/hdfs dfs -rm output2/*
删除文件夹 bin/hdfs dfs -rm -r output2

12 hadoop fs -get /user/hadoop/file localfile 获取Hdfs文件 /user/hadoop/file 为hdfs文件 localfile为自己命名

posted @ 2021-07-13 19:57  刘凯_tju  阅读(492)  评论(0编辑  收藏  举报