网络爬虫(三)爬取B站视频

尝试着用request库去爬取了一些B站视频

参考和抄了一些博主的代码和思路,我略作了修改,目前是不能爬取带分页的视频(只需要略作修改,也可爬取):

b站视频爬虫_哔哩哔哩_bilibili

Python爬取B站视频,只需一个B站视频地址,即可任意下载 - 腾讯云开发者社区-腾讯云 (tencent.com)

复制代码
import requests
import re  # 正则表达式
import pprint
import json
import subprocess
import os


if not os.path.exists("./video"):
    os.mkdir("./video")
ID=r"BV1Vx4y177ew"
fileName="./video/test"
url = f'https://www.bilibili.com/video/{ID}/'
headers = {
            'referer': f'https://www.bilibili.com/video/{ID}?spm_id_from=333.337.search-card.all.click',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
    }


def send_request(url):
    response = requests.get(url=url, headers=headers)
    return response
def get_video_data(html_data):
    """解析视频数据"""

    # 提取视频的标题
    #title = re.findall('<span class="tit">(.*?)</span>', html_data)
    # print(title)

    # 提取视频对应的json数据
    json_data = re.findall('<script>window\.__playinfo__=(.*?)</script>', html_data)[0]
    # print(json_data)  # json_data 字符串
    json_data = json.loads(json_data)
    pprint.pprint(json_data)

    # 提取音频的url地址
    audio_url = json_data['data']['dash']['audio'][0]['backupUrl'][0]
    print('解析到的音频地址:', audio_url)

    # 提取视频画面的url地址
    video_url = json_data['data']['dash']['video'][0]['backupUrl'][0]
    print('解析到的视频地址:', video_url)

    video_data = [audio_url, video_url]
    return video_data
def save_data(file_name, audio_url, video_url):
    # 请求数据
    print('正在请求音频数据')
    audio_data = send_request(audio_url).content
    print('正在请求视频数据')
    video_data = send_request(video_url).content
    with open(file_name + '.mp3', mode='wb') as f:
        f.write(audio_data)
        print('正在保存音频数据')
    with open(file_name + '.mp4', mode='wb') as f:
        f.write(video_data)
        print('正在保存视频数据')

def merge_data(video_name):
    print('视频合成开始:', video_name)
    # ffmpeg -i video.mp4 -i audio.wav -c:v copy -c:a aac -strict experimental output.mp4
    COMMAND = f'ffmpeg -i {video_name}.mp4 -i {video_name}.mp3 -vcodec copy -acodec copy {video_name}_out.mp4'
    subprocess.run(COMMAND, encoding='utf-8',shell=True)
    print('视频合成结束:', video_name)

rep=send_request(url).text
video=get_video_data(rep)
save_data(fileName,*video)
merge_data(fileName)
print("success")
复制代码

如果看不懂这些代码,建议看一看https://www.bilibili.com/video/BV1ha4y1H7sx/?spm_id_from=333.337.search-card.all.click

可能的错误有 控制台会有  ffmpeg一堆乱码,1.没有安装ffmpeg库,环境变量没配置好。2.配置好以后,需要重启一下,pycharm才会识别到该库。

posted @   澳大利亚树袋熊  阅读(670)  评论(0编辑  收藏  举报
编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
点击右上角即可分享
微信分享提示