会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
肖祥
博客园
首页
新随笔
联系
订阅
管理
2020年9月19日
Scrapy全站抓取-个人博客
摘要: 一、概述 在之前的文章中,一般是抓取某个页面信息。那么如何抓取一整个网站的信息呢? 想像一下,首先我们需要解析一个网站的首页, 解析出其所有的资源链接(ajax方式或绑定dom事件实现跳转忽略),请求该页面所有的资源链接, 再在资源链接下递归地查找子页的资源链接,最后在我们需要的资源详情页结构化数据
阅读全文
posted @ 2020-09-19 17:51 肖祥
阅读(385)
评论(0)
推荐(0)
编辑
公告