会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
墨小澄
公告
日历
导航
博客园
首页
新随笔
新文章
联系
订阅
管理
2020年5月18日
网络爬虫(一)
摘要: 一、简介 1、robot协议(爬虫协议):这个协议告诉引擎哪些页面可以抓取,哪些不可以 -User-agent:爬虫引擎 -allow:允许robot访问的URL -disallow:禁止访问的URL 2、爬虫约束:过快/频繁的网络爬虫会对服务器产生巨大的压力,网站可能封锁你的IP,或者采取法律行动
阅读全文
posted @ 2020-05-18 18:55 墨小澄
阅读(253)
评论(0)
推荐(0)
编辑
Copyright © 2024 墨小澄
Powered by .NET 8.0 on Kubernetes