随笔分类 -  Z.Node.js

摘要:功能:从天涯帖子中下载楼主发言到一个文本文件中 实验对象:http://bbs.tianya.cn/post-no05-308123-1.shtml 《鹿鼎记中计》 柳成萌著 爬取效果:除第一个贴需要手动下载外,其它均可自动完成,并有断点续传功能。 爬取结果下载:https://files.cnbl 阅读全文
posted @ 2018-03-24 09:49 逆火狂飙 阅读(838) 评论(0) 推荐(0) 编辑
摘要:原创 阅读全文
posted @ 2018-03-23 11:05 逆火狂飙 阅读(2528) 评论(0) 推荐(0) 编辑
摘要:最后一次改写了,重复自己的感觉并不好,看来需要找点新的爬虫内容作了,图片爬虫基本就这样了。 2017年11月21日16:29:46 阅读全文
posted @ 2017-11-21 16:30 逆火狂飙 阅读(206) 评论(0) 推荐(0) 编辑
摘要:2017年11月21日10:42:40 阅读全文
posted @ 2017-11-21 10:43 逆火狂飙 阅读(777) 评论(0) 推荐(0) 编辑
摘要:原有1.05版程序没有断点续传模式,现在在最近程序基础上改写一版1.051. 2017年11月21日10:19:20 阅读全文
posted @ 2017-11-21 10:20 逆火狂飙 阅读(2049) 评论(0) 推荐(0) 编辑
摘要:图片下载爬虫分两部分:爬页面和下载图片。 爬页面时先看网址是https还是http的,然后选择不同的内置对象; 其次看编码,如果是charset=gb2312的网页就需要iconv帮忙转码,好在大部分都是utf8了这步多数可以省却,之后输出页面代码看看,不乱码就可以进行分析了; 有时候网页使用gzi 阅读全文
posted @ 2017-11-20 08:24 逆火狂飙 阅读(197) 评论(0) 推荐(0) 编辑

生当作人杰 死亦为鬼雄 至今思项羽 不肯过江东
点击右上角即可分享
微信分享提示