摘要: 需求:爬取豆瓣小组所有话题(话题title,内容,作者,发布时间),及回复(最佳回复,普通回复,回复_回复,翻页回复,0回复) 解决:1. 先爬取小组下,所有的主题链接,通过定位nextpage翻页获取总过700+条话题; 2. 访问700+ 链接,在内页+start=0中,获取话题相关的四部分(话 阅读全文
posted @ 2017-07-12 16:59 vivi~ 阅读(752) 评论(2) 推荐(0) 编辑
摘要: 之前settings.py 中下图是注释掉的,: 现在把它放开,赋值3(意思是3秒) 现在700多个话题的豆瓣小组,可以顺利爬下 比较懒,感觉代理池会不会很复杂呀,什么的。 不过,设置了爬取的时间间隔,确实慢了很多。 代理池还是要用起来 阅读全文
posted @ 2017-07-12 16:32 vivi~ 阅读(1298) 评论(0) 推荐(0) 编辑