使用一条命令抓取一本小说

curl "http://www.23hh.com/book/1/1019/"|iconv -c -f gbk -t utf8 |sed 's/"/\n/g'|grep -P '^\d+\.html'|awk '{if(NR>0){print "http://www.23hh.com/book/1/1019/"$0}}'|while read l;do curl $l 2>/dev/null|iconv -c -fgbk -tutf8|sed -n -e '2p' -e'15p'|sed -e 's/<[^>]*>/\n/g' -e 's/&nbsp;/ /g';done > data.txt  

转载  http://blog.csdn.net/tsxw24/article/details/9148009

 posted on 2016-01-01 11:32  jayruan  阅读(1632)  评论(0编辑  收藏  举报