urllib-互联网爬虫
1、爬虫核心:爬取网页数据,解析数据,爬虫和反爬之间的博弈。
2、爬虫用途:数据分析/人工数据采集,社交软件冷启动,舆情监控,竞争对手监控。
3、爬虫分类
通用爬虫:抓取的数据大多是无用的,不能根据用户的需求来精准获取数据。
搜索引擎 网站排名SEO:竞价排名
聚焦爬虫:根据需求,实现爬虫程序,抓取需要的数据
设计思路:确定要爬的url -->模拟浏览器通过http协议访问url,获取服务器返回返回的html代码-->解析html字符串
4、反爬手段
1、user-agent:用户代理,它是一个特殊的字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
2、代理IP:西次代理、快代理
什么是高匿名,匿名,透明代理,区别
透明代理:对方服务器可以知道你使用了代理,并且也知道你的真实IP
匿名代理:对方服务器可以知道你使用了代理,但是不知道你的真实IP
高匿名代理:对方服务器不知道你使用了代理,更不知道你的真实IP
3、验证码:打码平台,云打码平台、超级
4、动态加载网页:网站返回的是js数据并不是网页的真实数据,selenium驱动真实的浏览器发送请求。
5、数据加密:分析js代码