会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Jacen's Blog
博客园
首页
新随笔
联系
管理
订阅
2018年4月13日
Python网络爬虫学习总结
摘要: 1、检查robots.txt 让爬虫了解爬取该网站时存在哪些限制。 最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索。 2、检查网站地图(robots.txt文件中发现的Sitemap文件) 帮助爬虫定位网站最新的内容,而无须爬取每一个网页。 网站地图提供了所有网页的链接,我们仍需对其谨慎处
阅读全文
posted @ 2018-04-13 12:48 叶建成
阅读(10199)
评论(0)
推荐(1)
编辑
公告