Python 爬虫简介
Python 爬虫简介
说到python相信很多人第一反应就是爬虫,python是作为爬虫领域最强大的一门语言,甚至有人误认为python就是爬虫的意思,可想而知python爬虫的实例,那么刚入坑的同学们问了,爬虫到底是个什么呢?
爬虫就是通过编写程序,浏览模拟器上网,然后让其去互联网上爬取数据的过程。
爬虫分类
- 通用爬虫:将一整张爬虫进行爬取,搜索引擎用的比较多。
- 聚焦爬虫:将一张爬下来,在获取指定元素。
- 增量式:只爬取最新或者没有爬过的数据。
反爬机制
- 门户网站,设计逻辑机制阻止爬虫程序。
反反爬策略
- 破解防反爬策略。
rebots.txt协议
- 它是一个反爬机制,指定的协议。
- 遵从或者不遵从