回顾

简历模板:
- ConectionPool:
  - 原因:
    - 1.在短时间内向网站发起了一个高频的请求
      - 使用代理
    - 2.连接池(http)中的资源被耗尽
      - 立即将请求断开:
        
        Connection:close
高清图片:
- 图片懒加载:在img标签中应用了伪属性
回顾
- 数据解析的作用:为了实现聚焦爬虫
- bs4:
  - soup.tagName
  - find/find_all('tagName',attrName='value')
  - select('Selector')
    - 空格
  - string/text
  - tag['href']
- xpath:
  - //tagName
  - //tagName[@attrName="value"]
  - //div[1]
  - //text or /text
  - //a/@href
- bs4和xpath最明显的一个区别什么?
- 解析出携带标签的局部内容?
  - bs4相关标签定位的方法或者属性返回值就是携带标签的内容

代理
cookie
验证码的识别
模拟登陆

代理
- 代理服务器:实现请求转发,从而可以实现更换请求的ip地址
- 在requests中如何将请求的ip进行更换
代理的匿名度:
- 透明:服务器知道你使用了代理并且知道你的真实ip
- 匿名:服务器知道你使用了代理,但是不知道你的真实ip
- 高匿:服务器不知道你使用了代理,更不知道你的真实ip
代理的类型:
- http:该类型的代理只可以转发http协议的请求
- https:只可以转发https协议的请求

免费代理ip的网站
- 快代理
- 西祠代理
- goubanjia
- 代理精灵(推荐):http://http.zhiliandaili.cn/
在爬虫中遇到ip被禁掉如何处理?
- 使用代理
- 构建一个代理池
- 拨号服务器

import requests

url = 'https://www.baidu.com/s?wd=ip'

#基于代理精灵构建一个ip池

import random

#爬取西祠代理中的免费代理ip

作用:保存客户端的相关状态
爬取雪球网中的新闻资讯数据:https://xueqiu.com/

在请求中携带cookie,在爬虫中如果遇到了cookie的反爬如何处理?
- 手动处理
  - 在抓包工具中捕获cookie,将其封装在headers中
  - 应用场景:cookie没有有效时长且不是动态变化
- 自动处理
  - 使用session机制
  - 使用场景:动态变化的cookie
  - session对象:该对象和requests模块用法几乎一致.如果在请求的过程中产生了cookie,如果该请求使用session发起的,则cookie会被自动存储到session中.

#获取一个session对象

验证码识别

相关的线上打码平台识别
- 打码兔
- 云打码
- 超级鹰:http://www.chaojiying.com/about.html
  - 1.注册,登录(用户中心的身份认证)
  - 2.登录后:
    - 创建一个软件:软件ID->生成一个软件id
    - 下载示例代码:开发文档->python->下载

平台实例代码的演示

#!/usr/bin/env python

7261

将古诗文网中的验证码图片进行识别https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx

def getCodeImgText(imgPath,img_type):

url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'

T71W

为什么在爬虫中需要实现模拟登录?
- 有的数据是必须经过登录后才可以显示出来的!

涉及到的反爬:
- 验证码
- 动态请求参数:每次请求对应的请求参数都是动态变化
  - 动态捕获:通常情况下,动态的请求参数都会被隐藏在前台页面的源码中
- cookie

def getCodeImgText(imgPath,img_type):

a50d

基于线程池的异步爬取

url = 'https://www.qiushibaike.com/text/page/%d/'

['https://www.qiushibaike.com/text/page/1/',
 'https://www.qiushibaike.com/text/page/2/',
 'https://www.qiushibaike.com/text/page/3/',
 'https://www.qiushibaike.com/text/page/4/',
 'https://www.qiushibaike.com/text/page/5/',
 'https://www.qiushibaike.com/text/page/6/',
 'https://www.qiushibaike.com/text/page/7/',
 'https://www.qiushibaike.com/text/page/8/',
 'https://www.qiushibaike.com/text/page/9/',
 'https://www.qiushibaike.com/text/page/10/']

def get_request(url): #必须有一个参数

from multiprocessing.dummy import Pool

​

爬虫

爬虫相关概述

思考:如何判定一张页面中是否存在动态加载的数据¶

快捷键

快捷键

回顾

数据解析

正则实现的数据解析

bs4解析

标签定位

提取数据

xpath解析

标签定位

提取数据

中文乱码处理的问题

回顾

验证码识别

基于线程池的异步爬取

爬虫

爬虫相关概述

思考:如何判定一张页面中是否存在动态加载的数据¶

快捷键

快捷键

回顾

数据解析

正则实现的数据解析

bs4解析

标签定位

提取数据

xpath解析

标签定位

提取数据

中文乱码处理的问题

回顾

Cookie

验证码识别

基于线程池的异步爬取