python3异步爬虫 ——aiohttp模板使用

一.简单使用和讲解

复制import aiohttp
import asyncio

async def fetch(client):
    async with client.get('http://httpbin.org/get') as resp:
        assert resp.status == 200
        return await resp.text()


async def main():
    async with aiohttp.ClientSession() as client:
        html = await fetch(client)
        print(html)

loop = asyncio.get_event_loop()     #返回一个事件循环对象,是asyncio.Baseeventloop的实例

for i in range(30):
    task = loop.create_task(main())     #添加任务

loop.run_until_complete(main())    #运行直至main()运行完

二.asyncio模块(事件相关)

Column Column
Asyncio.get_event_loop() 返回一个事件循环对象,是asyncio.Baseeventloop的实例
Abstracteventloop.stop() 停止运行事件循环
Abstracteventloop.run_forever() 一直运行直到stop()
Abstracteventloop.run_until_complete(func()) 运行直至func对象运行完
Abstracteventloop.close() 关闭事件循环
Abstracteventloop.is_running() 返回事件循环的是否运行
Abstracteventloop.create_task(func()) 添加事件

三.asyncio模块回调(部分代码)

复制loop = asyncio.get_event_loop()     #返回一个事件循环对象,是asyncio.Baseeventloop的实例
task = loop.create_task(main())   
task.add_done_callback(callback)   #上面的mian方法的返回值为下面callback方法名所用方法的入参

四.aiohttp请求相关

1.发起请求

复制import aiohttp
import asyncio


async def request_get(url):
    async with aiohttp.ClientSession() as client:  # 创建
        async with client.get(url) as resp:
            assert resp.status == 200  # 如果状态码是200才往下走,不然抛异常
            print( await resp.text())


loop = asyncio.get_event_loop()
loop.run_until_complete(request_get("http://httpbin.org/get"))

2.添加请求头,params,cookies,代理

复制和reuqest模块类似直接加就可以了
#设置代理
 session.get("http://python.org",proxy="http://some.proxy.com")

3.自定义域名解析地址

复制#我们可以指定域名服务器的 IP 对我们提供的get或post的url进行解析
from aiohttp.resolver import AsyncResolver
 
resolver = AsyncResolver(nameservers=["8.8.8.8", "8.8.4.4"])
conn = aiohttp.TCPConnector(resolver=resolver)

4.控制同时连接的数量(连接池)

复制async def func1():
 cookies = {'my_cookie': "my_value"}
 conn = aiohttp.TCPConnector(limit=2)  #默认100,0表示无限
 async with aiohttp.ClientSession(cookies=cookies,connector=conn) as session:
    pass

五.aiohttp响应相关

1.获取网站的响应状态码

复制resp.status

2.获取网站的请求头

复制resp.headers 来查看响应头,得到的值类型是一个dict
resp.raw_headers  查看原生的响应头,字节类型
resp.history      查看重定向的响应头

3.获取网站的响应内容

复制使用text()方法
使用json()方法  json格式
使用read()方法,不进行编码,为字节形式
r.content.read(10)  获取二进制流前10 
注意:text(),read()方法是把整个响应体读入内存,如果你是获取大量的数据,请考虑使用”字节流“(StreamResponse)
posted @   小小咸鱼YwY  阅读(920)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
历史上的今天:
2019-10-16 爬虫多次爬取时候cookie的存储用于登入
2019-10-16 requests模块响应体属性和方法重新整理
2019-10-16 requests模块请求常用参数的写法整理
2019-10-16 python程序打包exe文件
2019-10-16 爬虫响应信息乱码解决方式

目录导航

点击右上角即可分享
微信分享提示