爬虫_urllib中ajax的get请求
1.爬取豆瓣电影第一页数据并下载
#get请求 #获取豆瓣电影的第一页的数据并且保持起来 import urllib.request url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=0&limit=20' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36' } # (1) 请求对象的定制 request = urllib.request.Request(url=url,headers=headers) # (2) 获取响应的数据 response = urllib.request.urlopen(request) content = response.read().decode('utf-8') # (3) 数据下载到本地 # open方法默认情况下使用的是gbk的编码,如果我们要想保存汉字,那么需要在open方法中制定编码格式为utf-8 # encoding = 'utf-8' ft = open('douban.json','w',encoding='utf-8') ft.write(content)
2.爬取豆瓣电影前10页数据并下载本地
经过分析获取请求接口地址:https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=0&limit=20
#get请求 #获取豆瓣电影的前10页的数据并且保持起来 import urllib.request import urllib.parse url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=0&limit=20' # https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=0&limit=20 # https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=20&limit=20 # https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=40&limit=20 # https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=60&limit=20 #page 1 2 3 4 #start 0 20 40 60 #start (page-1)*20 #======================= #@description:请求对象定制 #@author:tnwner #@date:2022-05-23 13:19 #====================== def create_request(page): base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&' data = { 'start':(page-1)*20, 'limit':20 } data = urllib.parse.urlencode(data) url = base_url+data print(url) headers= { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36' } request = urllib.request.Request(url=url,headers=headers) return request #======================= #@description:获取响应的数据 #@author:tnwner #@date:2022-05-23 13:19 #====================== def get_content(request): response = urllib.request.urlopen(request) content = response.read().decode('utf-8') return content def down_load(page,content): with open('douban_' + str(page) + '.json','w',encoding='utf-8') as fp: fp.write(content) if __name__ == '__main__': start_input = int(input('请输入起始的页码')) end_inout = int(input('请输入结束的页码')) for page in range(start_input,end_inout+1): #请求对象的定制 request = create_request(page) #获取响应的数据 content = get_content(request) #下载 down_load(page,content)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!