linux中 hdfs结合awk删除某个日期前的文件
首先可以查看hdfs文件,
hadoop fs -ls /user/yankang02
结合日期是第六个属性,那么awk则选择$6
执行后得到
hadoop fs -ls /user/yankang02 | awk 'BEGIN{ days_ago=strftime("%F", systime()-30*24*3600) }{ if($6<"days_ago"){printf "%s\n", $8} }'
只得到8-8之前的文件
再根据文件目录遍历去删除所有的文件
# shell 实现
old_version=$(hadoop fs -ls /user/yankang02 | awk 'BEGIN{ five_days_ago=strftime("%F", systime()-30*24*3600) }{ if($6<five_days_ago){printf "%s\n", $8} }')
arr=(${old_version// / })
for version in ${arr[@]}
do
hadoop fs -rmr $version
done