欢迎来到十九分快乐的博客

生死看淡,不服就干。

2. requests高阶使用 - 多任务异步爬虫

requests高阶使用

1.图片懒加载

图片懒加载:
	当用户刷新页面的时候,页面中的图片只会加载出局部的而不是所有,只有当满足了指定的条件才可以将剩余的图片加载出来。
如何决定图片是否要加载出来?
	标签中使用伪属性。例如src2
# 网站:站长素材

import requests
from lxml import etree
import os

# 创建储存图片目录
dirname = '站长素材'
if not os.path.exists(dirname):
    os.mkdir(dirname)

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
}

# 获取前几页数据
for i in range(1,6):
    if i == 1:
        url = 'https://sc.chinaz.com/tupian/hunsha.html'
    else:
        url = 'https://sc.chinaz.com/tupian/hunsha_%d.html'%(i)

    response = requests.get(url,headers=headers)
    response.encoding = 'utf-8'
    page_text = response.text # 获取页面数据
    # print(page_text)

    # 实例化对象
    tree = etree.HTML(page_text)

    # 定位标签
    div_list = tree.xpath('//*[@id="container"]/div')
    for div in div_list:
        title = div.xpath('./div/a/img/@alt')[0] + '.jpg'
        # 获取页面标签的伪属性src2
        src = 'https:' + div.xpath('./div/a/img/@src2')[0]
        # print(title,src)
        # 获取图片数据
        img = requests.get(src,headers=headers).content
        filename = dirname + '/' + title
        # 保存图片
        with open(filename,'wb') as fp:
            fp.write(img)
            print(title,'保存成功')

2.cookie反爬机制

1. Cookie反爬机制:
    - cookie是可以设置有效时常的
    - cookie中是可以存在动态变化的键值对数据
    - 因此,将cookie写死在headers字典里不是一个明智选择

2. 处理cookie反爬:
    - 手动处理:将cookie写在headers中 
    - 自动处理:session的对象处理。
        - session对象可以像requests一样进行请求发送。只不过区别在于:
        - 如果在请求发送的过程中会产生cookie,则cookie会被自动存储到session对象中,而requests不会储存cookie。
        - session在常规的使用中至少会被调用两次。
        	第一次捕获cookie,之后携带cookie请求数据
            
'''
需求: 爬取雪球网咨询信息 -- https://xueqiu.com/
分析:
    1.判定爬取的数据是否为动态加载:
        当滚轮滑到底部的时候会加载更多的数据
    2.通过抓包工具Network中的XHR,定位ajax请求数据包,获取数据
'''

import requests

# 获取session对象
sess = requests.Session()
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
}
# 使用session捕获cookie
sess.get('https://xueqiu.com/',headers=headers)

url = 'https://xueqiu.com/statuses/hot/listV2.json?since_id=-1&max_id=195148&size=15'

# session请求数据
response = sess.get(url,headers=headers)
json_text = response.json()
print(json_text)

3.代理操作

1. 代理服务器:
	作用:转发请求和响应
2.代理和爬虫之间的关联?
	在短时间内,向一个网站发起高频的请求,则网站会将请求的ip监测到且加入黑名单。
3.代理类型
    http -- 只能转发http协议的请求
    https-- 只能转发https协议的请求
4.代理的匿名度
    透明代理:知道你使用了代理,也知道你本机真实ip
    匿名代理:知道你使用了代理,不知道你本机真实ip
    高匿代理:不知道你使用了代理,也不知道你本机真实ip
5.购买代理服务器:
	智连代理:http://http.zhiliandaili.cn/
import requests
from lxml import etree
import random

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
}

# 生成代理池
url1 = 'http://t.ipjldl.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=1&fa=0&fetch_key=&groupid=0&qty=5&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson=&usertype=15'
response = requests.get(url1)
page_text = response.text
# print(page_text)

tree = etree.HTML(page_text)
page_list = tree.xpath('/html/body//text()')
# print(page_list)
ip_list = []
for i in page_list:
    dic = {'https':i}
    ip_list.append(dic)
print(ip_list)

# 获取ip地址
url = 'https://www.sogou.com/web?query=ip'

# 使用代理服务器: proxies = {'https': 'ip:端口号'}
response = requests.get(url,headers=headers,proxies=random.choice(ip_list))
page_text = response.text
# print(page_text)
# 生成对象
tree = etree.HTML(page_text)
# 定位标签
ip = tree.xpath('//*[@id="ipsearchresult"]/strong/text()')[0]
print(ip)

4.验证码识别

验证码识别平台:http://www.ttshitu.com/
- 开发文档 -- python -- 如下:
import base64
import json
import requests
# 一、图片文字类型(默认 3 数英混合):
# 1 : 纯数字
# 1001:纯数字2
# 2 : 纯英文
# 1002:纯英文2
# 3 : 数英混合
# 1003:数英混合2
#  4 : 闪动GIF
# 7 : 无感学习(独家)
# 11 : 计算题
# 1005:  快速计算题
# 16 : 汉字
# 32 : 通用文字识别(证件、单据)
# 66:  问答题
# 49 :recaptcha图片识别 参考 https://shimo.im/docs/RPGcTpxdVgkkdQdY
# 二、图片旋转角度类型:
# 29 :  旋转类型
#
# 三、图片坐标点选类型:
# 19 :  1个坐标
# 20 :  3个坐标
# 21 :  3 ~ 5个坐标
# 22 :  5 ~ 8个坐标
# 27 :  1 ~ 4个坐标
# 48 : 轨迹类型
#
# 四、缺口识别
# 18:缺口识别
# 五、拼图识别
# 53:拼图识别
def base64_api(uname, pwd,  img,typeid):
    with open(img, 'rb') as f:
        base64_data = base64.b64encode(f.read())
        b64 = base64_data.decode()
    data = {"username": uname, "password": pwd,"typeid":typeid, "image": b64}
    result = json.loads(requests.post("http://api.ttshitu.com/predict", json=data).text)
    if result['success']:
        return result["data"]["result"]
    else:
        return result["message"]
    return ""


if __name__ == "__main__":
    img_path = "./img.jpg" # 验证码图片
    result = base64_api(uname='bb328410948', pwd='bb328410948', img=img_path,typeid=3)
    print(result)

5.模拟登陆

- 模拟登录
    - 验证码识别平台:http://www.ttshitu.com/
    - 动态变化的请求参数(抓包工具全局搜索)
        - 隐藏在前台页面中
        - 是由js动态生成
    - 注意Cookie

# 网站: 古诗文网 
# https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx

import base64
import json
import requests
from lxml import etree

# 获取session对象 -- 获取cookie,携带cookie请求
session = requests.Session()

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
}

# 验证码识别函数
def base64_api(uname, pwd,  img,typeid):
    with open(img, 'rb') as f:
        base64_data = base64.b64encode(f.read())
        b64 = base64_data.decode()
    data = {"username": uname, "password": pwd,"typeid":typeid, "image": b64}
    result = json.loads(requests.post("http://api.ttshitu.com/predict", json=data).text)
    if result['success']:
        return result["data"]["result"]
    else:
        return result["message"]
    return ""

# 1.动态获取验证码图片
url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'
response = session.get(url,headers=headers)
page_text = response.text
# print(page_text)

tree = etree.HTML(page_text)
src = 'https://so.gushiwen.cn'+tree.xpath('//*[@id="imgCode"]/@src')[0]
# print(src)
code_data = session.get(src,headers=headers).content
with open('code.jpg','wb')as fp:
    fp.write(code_data)

# 2.识别验证码
img_path = "./code.jpg"
result = base64_api(uname='bb328410948', pwd='bb328410948', img=img_path,typeid=3)
print(result)

# 在前台页面动态捕获动态变化的请求参数值
__VIEWSTATE = tree.xpath('//*[@id="__VIEWSTATE"]/@value')[0]
print(__VIEWSTATE)

# 3.模拟登陆
url = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'
data = {
    # 动态属性值
    '__VIEWSTATE': __VIEWSTATE,
    '__VIEWSTATEGENERATOR': 'C93BE1AE',
    'from': 'http://so.gushiwen.cn/user/collect.aspx',
    'email': 17600351804,
    'pwd': 123456,
    'code': result,
    'denglu': '登录',
}
response = session.post(url,headers=headers,data=data)
page_text = response.text
print(page_text)
with open('../古诗文.html', 'w', encoding='utf-8') as fp:
    fp.write(page_text)


使用flask在本地开启一个服务端

1.安装: pip install flask
2.创建一个templates文件夹,目录下放置静态HTML文件 -- 例如:text.html
    - 配置templates文件夹:
    	右键 -> Mark Directory as -> 选择 Template Folder -> yes
        选择语言: Languages & Frameworks -> Python Template Language
            	选择:Jinja2
3.创建一个server.py(.py)源文件,启动服务端

静态文件: text.html

<html lang="en">
<head>
	<meta charset="UTF-8" />
	<title>测试bs4</title>
</head>
<body>
	<div>
		<p>百里守约</p>
	</div>
	<div class="song">
		<p>李清照</p>
		<p>王安石</p>
		<p>苏轼</p>
		<p>柳宗元</p>
		<a href="http://www.song.com/" title="赵匡胤" target="_self">
			<span>this is span</span>
		宋朝是最强大的王朝,不是军队的强大,而是经济很强大,国民都很有钱</a>
		<a href="" class="du">总为浮云能蔽日,长安不见使人愁</a>
		<img src="http://www.baidu.com/meinv.jpg" alt="" />
	</div>
	<div class="tang">
		<ul>
			<li><a href="http://www.baidu.com" title="qing">清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村</a></li>
			<li><a href="http://www.163.com" title="qin">秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山</a></li>
			<li><a href="http://www.126.com" alt="qi">岐王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君</a></li>
			<li><a href="http://www.sina.com" class="du">杜甫</a></li>
			<li><a href="http://www.dudu.com" class="du">杜牧</a></li>
			<li><b>杜小月</b></li>
			<li><i>度蜜月</i></li>
			<li><a href="http://www.haha.com" id="feng">凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘</a></li>
		</ul>
	</div>
</body>
</html>

源文件: server.py

from flask import Flask,render_template
from time import sleep

# 实例化一个app
app = Flask(__name__)

# 创建视图函数和路由地址
@app.route('/bobo')
def indexs():
    sleep(2)
    # 返回静态界面
    return render_template('test.html') 

@app.route('/hehe')
def indexs1():
    sleep(2)
    return 'hello world!' # 返回字符串

@app.route('/tom')
def indexs1():
    sleep(2)
    return render_template('test.html')

@app.route('/jay')
def indexs2():
    sleep(2)
    return render_template('test.html')

if __name__ == '__main__':
    # 运行服务器 -- debug=True开启调试模式
    app.run(debug=True)

1.线程池

import requests
import time
from multiprocessing.dummy import Pool # 引入线程池

# 定义请求函数
def get_request(url):
    page_text = requests.get(url).text
    return len(page_text)

urls = [
'http://127.0.0.1:5000/bobo',
'http://127.0.0.1:5000/tom',
'http://127.0.0.1:5000/jay'
]

# 同步请求
'''
if __name__ == '__main__':
    start = time.time()
    for url in urls:
        result = get_request(url)
        print(result)
    print('总耗时:',time.time()-start) # 6秒
'''

# 基于线程池的异步请求
if __name__ == '__main__':
    start = time.time()
    # 实例化线程池对象 -- 参数3 表示开启3个线程
    pool = Pool(3)
    # 调用 -- map(self, func, iterable, chunksize=None):
    # 使用get_request作为回调函数,保证回调函数必须只有一个参数和返回值
    result_list = pool.map(get_request,urls)
    print(result_list)

    print('总耗时:',time.time()-start) # 2秒


2.协程操作

1.协程基础

多任务的异步协程:
    1.特殊的函数
        - 如果一个函数的定义被asnyc关键字修饰,则该函数就是一个特殊的函数。
        - 特殊之处:
            1.当特殊函数被调用后,函数内部的实现语句没有被立即执行
            2.当特殊函数调用后,会返回一个协程对象。
    2.协程对象
        - 当特殊函数调用后,会返回一个协程对象
    3.任务对象: 对协程对象的进一步封装
        - 任务对象 == 一个高级的协程对象 == 特殊函数 == 一组指定形式的操作
        - 任务对象 == 一组指定形式的操作
        - 任务对象的高级之处体现在可以给任务对象指定一个回调函数
            - 给任务对象绑定回调函数:
                让任务对象调用add_done_callback(func)
    4.事件循环对象
        - loop表示事件循环对象。该对象可以当作是一个容器,专门用来装载/存储一个或多个任务对象/协程对象。
        - 当开启了事件循环后,则该loop对象就可以异步执行其内部装在的任务对象。

2.协程的基本操作

import asyncio
import time

async def get_request(url):
    print('正在请求:',url)
    time.sleep(2)
    print('请求结束!')
    return 'hello bobo'

def func(task):#必须携带一个参数,值的就是add_done_callback的调用者(任务对象)
    data = task.result() #result()返回任务对象对应特殊函数内部的返回值
    print('回调函数返回值:',data) # 回调函数返回值:hello bobo

#协程对象
c = get_request('www.1.com')

#基于协程创建一个任务对象
task = asyncio.ensure_future(c)

#给任务对象绑定回调函数
task.add_done_callback(func)

#创建了一个事件对象
loop = asyncio.get_event_loop()

#装载任务对象和启动事件循环
loop.run_until_complete(task)

3.多任务协程操作

1.wait([task1,task2...])方法:
    - 挂起:让当前挂起的任务对象交出cpu的使用权。
    - wait()作用:给每一个任务对象添加可被挂起的权限。
2.注意:在特殊函数实现内部,不可以出现不支持异步模块的代码,否则会中断异步效果
3.await:需要添加在阻塞操作前面,保证阻塞操作在异步中会被异步执行。

import asyncio
import time

# 特殊函数
# async def get_url(url):
#     print('发送请求:',url)
#     time.sleep(1)  # 出现不支持异步操作的代码
#     print('请求结束!')
#     return 'Hello World!!'

async def get_url(url):
    print('发送请求:',url)
    await asyncio.sleep(1)  # 支持异步操作
    print('请求结束!')
    return 'Hello World!!'

url_list = ['www.1.com','www.2.com','www.3.com']
task_list = [] # 任务列表
start = time.time()
for url in url_list:
    # 创建协程对象
    c = get_url(url)
    # 创建任务对象
    task = asyncio.ensure_future(c)
    # 把任务对象追加到列表
    task_list.append(task)

# 创建事件循环对象
loop = asyncio.get_event_loop()
# 必须使用wait方法,对任务列表进行封装
loop.run_until_complete(asyncio.wait(task_list))

print('总耗时:',time.time()-start)

4.多任务异步爬虫

- 因为requests不支持异步请求,所有我们使用aiphttp:
    安装: pip install aiphttp
	
- aiohttp:异步的网络请求模块
    使用步骤:分两步
    1.编写一个大致的架构
    # 创建一个请求对象
    with aiohttp.ClientSession() as req:
        # 发起指定请求
        with req.get(url) as response:
            #text()字符串相应数据,read()是bytes类型的相应数据
            page_text = response.text()
     2.在大致架构上补充细节
     	- 在每一个with前加上async关键字
     	- 在每一步阻塞操作前加上await关键字

import asyncio
import time
import requests
import aiohttp
from lxml import etree

start = time.time()
#requets是不支持异步
# async def get_request(url):
#     page_text = requests.get(url).text
#     return page_text

async def get_request(url):
    #创建一个请求对象
    async with aiohttp.ClientSession() as req:
        #发起指定请求
        #注意:get和post和requests中的区别在于proxies参数。在aiohttp设置代理使用的时proxy='http://ip:port'
        async with await req.get(url) as response:
            #text()字符串相应数据,read()byte类型的相应数据
            page_text = await response.text()
            return page_text

# 回调函数 -- 获取页面指定内容
def parse(task):
    page_text = task.result()
    tree = etree.HTML(page_text)
    data = tree.xpath('//a[@id="feng"]/text()')[0]
    print(data)

urls = [
    'http://127.0.0.1:5000/bobo',
    'http://127.0.0.1:5000/tom',
    'http://127.0.0.1:5000/jay'
]

tasks = []
for url in urls:
    c = get_request(url) # 协程对象
    task = asyncio.ensure_future(c) # 任务对象
    task.add_done_callback(parse) # 任务对调函数

    tasks.append(task)
# 事件对象
loop = asyncio.get_event_loop()
#装载任务对象和启动事件循环
loop.run_until_complete(asyncio.wait(tasks))

print('总耗时:',time.time()-start)

posted @ 2021-04-23 20:49  十九分快乐  阅读(630)  评论(0编辑  收藏  举报