会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
浪里白条_双河
学而时习之
管理
2020年5月25日
scrapy不过滤重复url
摘要: 今天在爬取一个朝鲜网站:http://www.rodong.rep.kp/cn/index.php?strPageID=SF01_01_02&iMenuID=2时,发现它会重定向多次,又回到原url,如果scrapy过滤重复url,则无法爬取。 所以,查资料发现:可以重复爬取,而且设置比较简单。 资
阅读全文
posted @ 2020-05-25 09:54 浪里白条_双河
阅读(826)
评论(0)
推荐(0)
编辑