摘要: 乱码问题有三种解决方式,下面我们通过一个示例进行理解 示例: 爬取4k美女壁纸中的图片 http://pic.netbian.com/4kmeinv/ import requestsfrom lxml import etreeimport osfrom urllib import request i 阅读全文
posted @ 2019-01-09 20:54 熊猫大侠-呀呀呀!!! 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 引入: 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。 今日概要: 使用云打码平台识别验证码 云打码官网地址: http://www.yundama.com/ 云打码使用流程: 注册:普通用户和开发者用户( 阅读全文
posted @ 2019-01-09 14:05 熊猫大侠-呀呀呀!!! 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 一、基于request模块的代理操作 什么是代理 代理就是第三方代替本体处理相关事务。例如:生活中的代理:代购,中介,微商...... 爬虫中为什么需要使用代理 一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这 阅读全文
posted @ 2019-01-09 13:30 熊猫大侠-呀呀呀!!! 阅读(401) 评论(0) 推荐(0) 编辑