一、技术和方法:

1、在请求头headers里设置User-Agent(浏览器内核);

2、当碰到post请求方式时,一般需要在请求头里设置Cookie的数据;

3、当本机ip由于短时间频繁访问受限时,可以设置代理ip(免费ip推荐西次代理);

4、如果需要登录的,可以通过fiddler抓包工具抓取登录cookie和表单信息,然后headers设置cookie信息,data设置表单信息;

5、对应动态变化的cookie可以通过cookiejar来获取cookie;

6、使用selenium来模拟真实的浏览器进行获取数据(得到的数据相对比较多)。

二、反爬过程:

1、判断请求的方式,get还是post;

2、如果是get,观察地址栏的变化规律,如果是post请求,请求头一般需要加cookie,data也需要完整的数据;

3、爬取到数据后进行过滤时如果出现数据为空,要注意是否是动态加载,查找的接口是不是不对;

4、如果接口不对,需要通过浏览器的网络接口慢慢查找,注意接口名称和XHR中的接口,通过response一栏的数据来查找;