代理池搭建#
-基于flask搭建的服务端:提供一些接口,只要向接口发送请求,就能随机返回一个代理
-爬虫程序:爬取免费代理,验证通过放到redis中
第一步:clone代码
git clone git@github.com:jhao104/proxy_pool.git
第二步:安装依赖
pip3.8 install -r requirements.txt
第三步:配置配置文件
DB_CONN = 'redis://127.0.0.1:6379/1'
第四步:启动项目
python38 proxyPool.py schedule
python38 proxyPool.py server
http://127.0.0.1:5010/get/
'''原创大哥nb'''
django后端获取客户端的ip#
-正常会返回代理的ip地址
import requests
res1 = requests.get('http://127.0.0.1:5010/get/').json()
print(res1['proxy'])
if res1['https']:
h = 'https'
else:
h = 'http'
proxies = {
h: res1['proxy'],
}
res = requests.get('http://101.133.225.166/get_ip/',proxies=proxies)
print('---',res.text)
爬取某视频网站#
import requests
import re
res = requests.get('https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=5&start=0')
video_list = re.findall('<a href="(.*?)" class="vervideo-lilink actplay">', res.text)
print(video_list)
for video in video_list:
video_id = video.split('_')[-1]
video_url = 'https://www.pearvideo.com/' + video
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'Referer': video_url
}
res1 = requests.get('https://www.pearvideo.com/videoStatus.jsp?contId=%s&mrd=0.5602821872545047' % video_id,
headers=header
).json()
mp4_url = res1['videoInfo']['videos']['srcUrl']
real_mp4_url = mp4_url.replace(mp4_url.split('/')[-1].split('-')[0], 'cont-%s' % video_id)
print(real_mp4_url)
res2 = requests.get(real_mp4_url)
with open('video/%s.mp4' % video_id, 'wb') as f:
for line in res2.iter_content(1024):
f.write(line)
-关于全站爬取:更好分类id和起始爬取的数字即可
-同步爬取,速度一般,加入线程(线程池),提高爬取速度---》作业(线程池)
-封ip问题---》代理池了(使用代理池)
-视频处理(截取视频,拼接视频)---》ffmpeg软件---》通过命令调用软件
python操作软件:subprocess模块 执行ffmpeg的命令完成视频操作
python模块操作opencv(c写的,编译后,使用python调用),实现非常高级的功能
文件操作给视频加头去尾部
-秒传功能:对每个文件都做了md5摘要,再上传相同文件
-盗版视频(某些视频),只要视频多一点点,少一点点就可以了
-单线程下载---》迅雷---》多线程下载
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix