摘要: 0x01 前言 一般而言,抓取稍微正规一点的网站,都会有反爬虫的制约。反爬虫主要有以下几种方式: 0x02 概要 今天我们先主要来讲一讲,如何应对第2条的反反爬虫,如何通过多IP抓取。 通过多IP爬虫,又分为以下几种形式: 0x03 正文 1. ADSL拨号 我一般是在windows平台ADSL拨号 阅读全文
posted @ 2017-11-07 13:34 少年努力吧 阅读(2258) 评论(0) 推荐(0) 编辑
摘要: 爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1小莫想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进自己的数据库。这个站点的运 阅读全文
posted @ 2017-11-07 11:35 少年努力吧 阅读(1482) 评论(0) 推荐(0) 编辑
摘要: 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网站目录和数据加载方式。前两种比较容易遇到,大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用,这样增大了爬取的难度。 0x02 通过H 阅读全文
posted @ 2017-11-07 11:16 少年努力吧 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 1、何为爬虫 爬虫的概念就是能按照给定的目标及规则实现自动化采集网络数据的程序或脚本。通俗的来说,就是通过程序来模拟人登陆网站去获取想要数据,就是这么简单。 爬虫的本质是直接用程序脚本去实现http请求,访问目标网站或数据接口,然后对获得的数据去进行解析,从而得到你想要的数据。 本人认为爬虫的最高境 阅读全文
posted @ 2017-11-07 10:40 少年努力吧 阅读(1438) 评论(0) 推荐(0) 编辑