爬虫介绍

编辑本随笔

爬虫分类：

通用爬虫：将互联网上得网页下载到本地，形成一个互联网得备份。

聚焦爬虫：根据指定需求抓取网络上指定数据，而不是获取整张页面中所有得数据。

robots.txt协议

不想让爬虫爬取，可以写一个robots.txt协议，可参考淘宝的robots.txt协议(www.taobao.com/robots.txt)。协议属于口头协议，没有使用相关技术强制管制。

反爬虫

通过相应策略或技术手段，放置爬虫程序进行网站数据爬取

反反爬虫

破解门户网站的反爬虫手段，从而爬取到相应的数据

posted @ 2019-01-23 11:31 丫丫625202 阅读(113) 评论(0) 编辑收藏举报

刷新页面返回顶部