爬虫介绍
爬虫分类:
通用爬虫:将互联网上得网页下载到本地,形成一个互联网得备份。
聚焦爬虫:根据指定需求抓取网络上指定数据,而不是获取整张页面中所有得数据。
robots.txt协议
不想让爬虫爬取,可以写一个robots.txt协议,可参考淘宝的robots.txt协议(www.taobao.com/robots.txt)。协议属于口头协议,没有使用相关技术强制管制。
反爬虫
通过相应策略或技术手段,放置爬虫程序进行网站数据爬取
反反爬虫
破解门户网站的反爬虫手段,从而爬取到相应的数据