概念

- 爬虫:我写的程序,能够模拟浏览器上网,还能获取数据。

- 爬虫的分类:

  - 通用爬虫:理解 将url对应的整张页面爬取。

  - 聚焦爬虫:理解 将页面局部或者特定的内容爬取。

  - 增量式爬虫: 理解 将之前爬过的内容去重,还可自己封装进行判断去重,然后进行爬取页面最新的内容。

- 反爬机制:阻止爬虫程序爬取内容。

- 反反爬策略:爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据。

- robots.txt协议 理解 是一种反爬机制。

 

posted on 2019-03-18 21:28  绿豆·  阅读(96)  评论(0编辑  收藏  举报

导航