20行Python代码爬取下载应用宝所有APP软件
基本环境配置
python 3.6
pycharm
requests
parsel
打开开发者工具分析网页
你怎么知道这个就是下载地址呢?
1、选择一个应用的下载地址
2、打开开发者工具,清空数据,选择Network
3、点击立即下载
4、就会发现下载地址
把链接地址复制,在网页源代码中搜索,查看是否网页是否有返回该数据
有数据:
就可以直接请求网页获取地址;没有数据:
那就要在开发这工具里面找是否有接口数据,然后一步一步在进行分析;
实现效果
完整代码
import requests
import parsel
def download(url, title):
path = 'D:\\python\\demo\\应用宝手机APP软件\\APP软件\\' + title + '.apk'
response = requests.get(url=url, headers=headers)
with open(path, mode='wb') as f:
f.write(response.content)
for page in range(100, 123):
url = 'https://sj.qq.com/myapp/category.htm?orgame=1&categoryId={}'.format(page)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
selector = parsel.Selector(response.text)
lis = selector.css('.main ul li')
for li in lis:
title = li.css('.app-info-desc a:nth-child(1)::text').get()
apk_url = li.css('.app-info-desc a:nth-child(4)::attr(ex_url)').get()
print(title, apk_url)
download(apk_url, title)
欢迎关注公众号:Python爬虫数据分析挖掘,回复【开源源码】免费获取更多开源项目源码
公众号每日更新python知识和【免费】工具
耐得住寂寞,才能登得顶
Gitee码云:https://gitee.com/lyc96/projects