linux_shell_根据网站来源分桶

应用场景:

  3kw行url+\t+html记录 【网站混合】

  需要:按照网站来源分桶输出

 

执行shell

cat */*pack.html|awk -F '\t' '{
    split($1,arr,"/");
    site=arr[3];
    print $0 > site
    }'

 

posted @ 2016-01-18 17:40  cphmvp  阅读(158)  评论(0编辑  收藏  举报
爬虫在线测试小工具: http://tool.haoshuju.cn/