摘要: 一、获取一个有登录信息的Cookie模拟登陆 下面以人人网为例,首先使用自己的账号和密码在浏览器登录,然后通过抓包拿到cookie,再将cookie放到请求之中发送请求即可,具体代码如下: 这样就可以访问登录后才会呈现的页面。 二、使用cookielib库 和 HTTPCookieProcessor 阅读全文
posted @ 2017-10-04 20:02 YangPython 阅读(25115) 评论(0) 推荐(3) 编辑
摘要: 一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这个IP的访问。所以我们需要设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。在Python中,可以使用urllib2中的Pro 阅读全文
posted @ 2017-10-04 15:42 YangPython 阅读(32679) 评论(0) 推荐(1) 编辑