随笔 - 633,  文章 - 0,  评论 - 13,  阅读 - 48万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
复制代码
"""
实现步骤:发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据
1.发送请求,对于视频信息数据包发送请求
2.获取数据,获取服务器返回的数据
3.解析数据,提取我们想要的内容:视频url地址、视频标题
4.保存数据,将视频内容保存到本地文件夹
"""

import requests  # 数据请求模块
from pprint import pprint  # 格式化输出
import re  # 正则表达式模块
import json
import os


def get_response(url):
    """发送请求"""
    # headers:请求头,将python代码进行伪装
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    return response


def get_video_info(video_id):
    """获取视频数据"""
    url = f'https://liveapi.huya.com/moment/getMomentContent?videoId={video_id}&uid=&_=1657784282961'

    response = get_response(url)
    # print(response.text)
    # print(response.json())
    # json数据其实就是字典数据类型
    # 根据key获取值
    # pprint(response.json())
    # 获取视频标题
    title = response.json()['data']['moment']['title']
    # 在Windows操作系统中 保存的数据不能包含一些特殊字符
    title = re.sub(r'【.*?】', '', title)
    title = re.sub(r'[\/:*?"<>|\n]', '_', title)
    # 获取视频地址
    video_url = response.json()['data']['moment']['videoInfo']['definitions'][0]['url']
    video_info = [title, video_url]
    return video_info


def save(title, video_url):
    """保存数据"""
    # 发送网络请求:请求每一个视频地址,获取视频二进制数据
    video_content = get_response(url=video_url).content
    dir_name = 'videos/'
    # 判断该文件夹是否存在
    if not os.path.exists(dir_name):
        # 不存在则创建
        os.mkdir(dir_name)
    with open(dir_name + title + '.mp4', mode='wb') as f:
        f.write(video_content)
        print(f'视频:{title}----------下载完成')


"""
爬取多个视频内容:
通过爬取单个视频可以发现 >>> 只需更改视频ID就可以下载不同的视频内容  >>> 只要获取所有视频的ID,即可下载所有视频内容
1.发送请求,对于视频信息数据包发送请求
2.获取数据,获取服务器返回的数据
3.解析数据,提取我们想要的内容:视频ID
4.保存数据,将视频内容保存到本地文件夹
"""


def get_video_ids(url):
    """获取视频ID"""
    html_data = get_response(url).text
    # print(html_data)
    # 正则表达式解析数据
    video_data = re.findall('<script> window.HNF_GLOBAL_INIT = (.*?)</script>', html_data)[0]
    # print(video_data)
    # 需要把字符串数据转字典数据
    json_data = json.loads(video_data)
    # 字典取值的方法 提取视频信息数据 返回的列表,而列表里面的元素是字典
    video_id_list = json_data['videoData']['videoDataList']['value']
    video_ids = [i['vid'] for i in video_id_list]  # 列表推导式
    # pprint(video_ids)
    return video_ids


def main(html_url):
    """主函数"""
    # 获取视频ID列表
    video_ids = get_video_ids(html_url)
    # 遍历ID列表
    for video_id in video_ids:
        # 获取视频信息
        video_info = get_video_info(video_id)
        # print(video_info[0], video_info[1])
        # 保存视频
        save(video_info[0], video_info[1])


if __name__ == '__main__':

    for i in range(7,500):
        try:
            url = "https://v.huya.com/g/all?set_id=51&order=hot&page=%s" % str(i)
            main(url)
        except Exception as e:
            baocuo = "报错:%s,网址:%s" % (e,url)
            print(baocuo)
            with open("cuowu.txt","a",encoding="utf-8") as f:
                f.write(baocuo)
复制代码

 

posted on   大话人生  阅读(107)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
历史上的今天:
2022-06-03 1-vue+elementUI+sprintboot-项目前的准备
点击右上角即可分享
微信分享提示