Loading

一:爬虫引入

1.是什么

爬虫:模拟浏览器,发送请求,获取有价值的数据。

能做什么?

1.采集网络数据
2.自动化测试,请求接口,验证数据。
3.做一些脱离手动的操作,例如抢票,微信聊天托管itchat。
4.灰色产业,薅羊毛,但是要慢点薅,别把人家服务器干崩了,就是恶意攻击了。(水军) 

知识点

1.网络协议
2.前端知识
3.正则、xpath、bs4
4.数据存储
5.并发处理
6.图像识别(验证码识别,处理反爬),可以接入打码三方

涉及的问题

1.网站分析,以及策略更新
2.解决反爬
3.数据分析
4.模拟登陆
5.爬虫监控及部署
6.数据去重(url去重,内容去重)

爬虫并不是万能的,网页上没有呈现的数据是无法抓取的。

不应该高频率、无节制的爬取目标网站,一旦导致目标网站瘫痪,很有可能进去。

 

posted @ 2021-03-25 18:41  浅忆尘  阅读(26)  评论(0编辑  收藏  举报