hadoop 常用命令

1，hadoop fs -cat /shining/temp.txt.gz | zcat | head -1
hadoop fs -text /shining/temp.txt.gz | head -1
  查看gz文件的第一行数据
  参考资料：https://blog.csdn.net/java___boy/article/details/103178672
2，hadoop fs -stat hdfs://xx/xx
   返回（目录或者文件）文件的修改时间
3，hadoop fs -ls  是有文件的详细的信息的

4，随机返回指定行数的样本数据
    hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5

5，返回前几行的样本数据
    hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | head -100

6，返回最后几行的样本数据
    hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | tail -5

7，查看文本行数
    hadoop fs -cat hdfs://172.16.0.226:8020/test/sys_dict/sysdict_case_type.csv |wc -l

4-7的参考资料:https://blog.csdn.net/github_38358734/article/details/79272521

8,假设在你的hdfs集群上有一个/user/hadoop/output目录

里面有作业执行的结果（多个文件组成）part-000000,part-000001,part-000002

然后你想把所有的文件合拢来一起看 可以使用命令：hadoop fs -getmerge /user/hadoop/output local_file(.gz)
hadoop fs -getmerge ${data_path}/${yesterday}/ data_${yesterday}.gz
可以合并为压缩文件

9，gunzip data_${yesterday}.gz  解压文件 解压以后 data_${yesterday}.gz消失 生成后feature_data_${yesterday}文件

10，查看文件夹下 各个目录的总大小：hdfs dfs -du -h
查看文件夹下 各个目录的总大小：hdfs dfs -du -s -h 目录的总大小

11 删除文件   bin/hdfs dfs -rm output2/*
   删除文件夹   bin/hdfs dfs -rm -r output2

12 hadoop fs -get /user/hadoop/file localfile 获取Hdfs文件    /user/hadoop/file 为hdfs文件   localfile为自己命名
posted @ 2021-07-13 19:57 刘凯_tju 阅读(492) 评论(0) 编辑收藏举报
刷新页面返回顶部
hadoop 常用命令

公告