摘要:
利用scrapy模拟登陆人人网,笔者本打算抓取一下个人页面新鲜事,感觉这个网站越做越差,都懒得抓里面的东西了。这里仅仅模拟人人网登陆,说明一下scrapy的POST请求问题。 人人网改版之后,反爬措施是明显加强了呀,post请求发送的东西增加了很多东西; 不过,笔者小测试了一下,发现改版前的网站接口 阅读全文
摘要:
常用的反反爬策略 通常防止爬虫被反主要有以下几策略: 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息。) 禁用cookies(也就是不启用cookies middleware,不向server发送cookies,有些网站通过cookies的使用发现爬虫,可以通过 阅读全文