摘要: 这几天爬了豆瓣小组照片和小组成员信息,对一些小技术做下小结。源码在我的Github/mashaz上。 1.断点续爬 我的思路是把链接的list实时保存到文本文件里,每次打开后检测一次 2.Cookies 3.CSV 第一次接触csv格式 刚逛v站看说豆瓣的防爬频率是白天40/min,晚上100/mi 阅读全文
posted @ 2017-03-04 15:57 mashaz 阅读(197) 评论(0) 推荐(0) 编辑