摘要:
[TOC] 图片懒加载技术 一. 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 !/usr/bin/env python coding:utf 8 import requests from lxml import etree if __name__ == "__mai 阅读全文
摘要:
[TOC] 验证码处理 云打码平台处理验证码的实现流程: 1.对携带验证码的页面数据进行抓取 2.可以将页面数据中验证码进行解析,验证码图片下载到本地 3.可以将验证码图片提交给三方平台进行识别,返回验证码图片上的数据值 云打码平台: 1.在官网中进行注册(普通用户和开发者用户) 2.登录开发者用户 阅读全文
摘要:
[TOC] 基于requests模块的cookie,session和线程池爬取 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: !/usr/bin/env python cod 阅读全文