一:爬虫引入
1.是什么
爬虫:模拟浏览器,发送请求,获取有价值的数据。
能做什么?
1.采集网络数据 2.自动化测试,请求接口,验证数据。 3.做一些脱离手动的操作,例如抢票,微信聊天托管itchat。 4.灰色产业,薅羊毛,但是要慢点薅,别把人家服务器干崩了,就是恶意攻击了。(水军)
知识点
1.网络协议 2.前端知识 3.正则、xpath、bs4 4.数据存储 5.并发处理 6.图像识别(验证码识别,处理反爬),可以接入打码三方
涉及的问题
1.网站分析,以及策略更新 2.解决反爬 3.数据分析 4.模拟登陆 5.爬虫监控及部署 6.数据去重(url去重,内容去重)
爬虫并不是万能的,网页上没有呈现的数据是无法抓取的。
不应该高频率、无节制的爬取目标网站,一旦导致目标网站瘫痪,很有可能进去。
看十遍不如自己写一遍!巩固基础,纵横开拓!