linux_shell_根据网站来源分桶
应用场景:
3kw行url+\t+html记录 【网站混合】
需要:按照网站来源分桶输出
执行shell
cat */*pack.html|awk -F '\t' '{ split($1,arr,"/"); site=arr[3]; print $0 > site }'
create by cphmvp
email:cphmvp@163.com
爬虫技术交流_crawler QQ群 :167047843
应用场景:
3kw行url+\t+html记录 【网站混合】
需要:按照网站来源分桶输出
执行shell
cat */*pack.html|awk -F '\t' '{ split($1,arr,"/"); site=arr[3]; print $0 > site }'