aiohttp 异步爬取实战

aiohttp库使用流程

导入 aiohttp 库，并创建一个信号量，用于限制并发数量。
定义索引页面和详情页面的URL，以及每页的大小和总页数。
创建一个异步函数 scrape_api，用于爬取指定URL的数据。
创建一个异步函数 scrape_index，用于爬取指定页码的索引数据。
使用 asyncio.Semaphore 信号量，限制并发数量。
使用 session.get 方法，获取指定URL的数据，并使用 response.json 方法解析数据。
在出现异常时，使用 logging.error 方法，记录错误日志。

import asyncio
import aiohttp
import logging

# 设置日志级别
logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s - %(levelname)s: %(message)s')

# 定义索引页面和详情页面的URL
INDEX_URL = 'https://spa5.scrape.center/api/book/?limit=18&offset={offset}'
DETAIL_URL = 'https://spa5.scrape.center/api/book/{id}/'

# 定义每页的大小和总页数
PAGE_SIZE = 18
PAGE_NUMBER = 100
CONCURRENCY = 5

# 创建一个信号量，用于限制并发数量
semaphore = asyncio.Semaphore(CONCURRENCY)


# 爬取指定URL的数据
async def scrape_api(url):
    # 爬取指定URL的数据
    async with semaphore:
        try:
            logging.info('scraping %s', url)
            async with session.get(url) as response:
                return await response.json()
        except aiohttp.ClientError:
            logging.error('error occurred while scraping %s', url, exc_info=True)


# 爬取指定页码的索引数据
async def scrape_index(page):
    url = INDEX_URL.format(offset=PAGE_SIZE * (page - 1))
    return await scrape_api(url)


# 爬取详情页和保存数据
from motor.motor_asyncio import AsyncIOMotorClient

# 连接MongoDB数据库
MONGO_CONNECTION_STRING = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'books'
MONGO_COLLECTION_NAME = 'books'

# 创建一个异步I/O的MongoDB客户端
client = AsyncIOMotorClient(MONGO_CONNECTION_STRING)
# 获取指定的数据库
db = client[MONGO_DB_NAME]
# 获取指定的集合
collection = db[MONGO_COLLECTION_NAME]


# 保存数据到MongoDB
async def save_data(data):
    logging.info('saving data %s', data)
    if data:
        return await collection.update_one({
            'id': data.get('id')
        }, {
            '$set': data
        }, upsert=True)


# 爬取指定id的详细数据
async def scrape_detail(id):
    url = DETAIL_URL.format(id=id)
    data = await scrape_api(url)
    await save_data(data)


# 异步函数main，用于爬取指定页面的数据
async def main():
    # 创建一个aiohttp客户端会话
    global session
    session = aiohttp.ClientSession()
    # 创建一个异步任务列表，用于爬取指定页面的索引数据
    scrape_index_tasks = [asyncio.ensure_future(scrape_index(page)) for page in range(1, PAGE_SIZE + 1)]
    # 等待所有异步任务完成，并获取结果
    results = await asyncio.gather(*scrape_index_tasks)
    ids = []
    # 遍历索引数据，获取id
    for index_data in results:
        if not index_data:
            continue
        for item in index_data.get('results'):
            ids.append(item.get('id'))
    # 创建一个异步任务列表，用于爬取指定id的详细数据
    scrape_detail_tasks = [asyncio.ensure_future(scrape_detail(id)) for id in ids]
    # 等待所有异步任务完成
    await asyncio.wait(scrape_detail_tasks)
    # 关闭客户端会话
    await session.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

posted @ 2023-03-01 19:27 淦丘比阅读(38) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

摆烂的revue

活着就是为了摆烂，向往自由的摆烂迎难而退，绝不逞强，能跑就跑我，再生产，要成为最没用的废物这就是我五彩斑斓的世界哒，丛雨酱

aiohttp 异步爬取实战

aiohttp库使用流程

公告

摆烂的revue

活着就是为了摆烂，向往自由的摆烂 迎难而退，绝不逞强，能跑就跑 我，再生产，要成为最没用的废物 这就是我五彩斑斓的世界哒，丛雨酱

aiohttp 异步爬取实战

aiohttp库使用流程

公告

活着就是为了摆烂，向往自由的摆烂迎难而退，绝不逞强，能跑就跑我，再生产，要成为最没用的废物这就是我五彩斑斓的世界哒，丛雨酱