""" 实现步骤:发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据 1.发送请求,对于视频信息数据包发送请求 2.获取数据,获取服务器返回的数据 3.解析数据,提取我们想要的内容:视频url地址、视频标题 4.保存数据,将视频内容保存到本地文件夹 """ import requests # 数据请求模块 from pprint import pprint # 格式化输出 import re # 正则表达式模块 import json import os def get_response(url): """发送请求""" # headers:请求头,将python代码进行伪装 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36' } response = requests.get(url=url, headers=headers) return response def get_video_info(video_id): """获取视频数据""" url = f'https://liveapi.huya.com/moment/getMomentContent?videoId={video_id}&uid=&_=1657784282961' response = get_response(url) # print(response.text) # print(response.json()) # json数据其实就是字典数据类型 # 根据key获取值 # pprint(response.json()) # 获取视频标题 title = response.json()['data']['moment']['title'] # 在Windows操作系统中 保存的数据不能包含一些特殊字符 title = re.sub(r'【.*?】', '', title) title = re.sub(r'[\/:*?"<>|\n]', '_', title) # 获取视频地址 video_url = response.json()['data']['moment']['videoInfo']['definitions'][0]['url'] video_info = [title, video_url] return video_info def save(title, video_url): """保存数据""" # 发送网络请求:请求每一个视频地址,获取视频二进制数据 video_content = get_response(url=video_url).content dir_name = 'videos/' # 判断该文件夹是否存在 if not os.path.exists(dir_name): # 不存在则创建 os.mkdir(dir_name) with open(dir_name + title + '.mp4', mode='wb') as f: f.write(video_content) print(f'视频:{title}----------下载完成') """ 爬取多个视频内容: 通过爬取单个视频可以发现 >>> 只需更改视频ID就可以下载不同的视频内容 >>> 只要获取所有视频的ID,即可下载所有视频内容 1.发送请求,对于视频信息数据包发送请求 2.获取数据,获取服务器返回的数据 3.解析数据,提取我们想要的内容:视频ID 4.保存数据,将视频内容保存到本地文件夹 """ def get_video_ids(url): """获取视频ID""" html_data = get_response(url).text # print(html_data) # 正则表达式解析数据 video_data = re.findall('<script> window.HNF_GLOBAL_INIT = (.*?)</script>', html_data)[0] # print(video_data) # 需要把字符串数据转字典数据 json_data = json.loads(video_data) # 字典取值的方法 提取视频信息数据 返回的列表,而列表里面的元素是字典 video_id_list = json_data['videoData']['videoDataList']['value'] video_ids = [i['vid'] for i in video_id_list] # 列表推导式 # pprint(video_ids) return video_ids def main(html_url): """主函数""" # 获取视频ID列表 video_ids = get_video_ids(html_url) # 遍历ID列表 for video_id in video_ids: # 获取视频信息 video_info = get_video_info(video_id) # print(video_info[0], video_info[1]) # 保存视频 save(video_info[0], video_info[1]) if __name__ == '__main__': for i in range(7,500): try: url = "https://v.huya.com/g/all?set_id=51&order=hot&page=%s" % str(i) main(url) except Exception as e: baocuo = "报错:%s,网址:%s" % (e,url) print(baocuo) with open("cuowu.txt","a",encoding="utf-8") as f: f.write(baocuo)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
2022-06-03 1-vue+elementUI+sprintboot-项目前的准备