爬取 豆瓣电影Top250
目标
学习爬虫,爬豆瓣榜单,获取爬取静态页面信息的能力
豆瓣电影 Top 250 https://movie.douban.com/top250
代码
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | import requests from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return '产生异常' if __name__ == '__main__' : i = 0 urls = [ 'https://movie.douban.com/top250?start=' +str(n)+ '&filter=' for n in range(0,250,25)] for url in urls: r = getHTMLText(url) soup = BeautifulSoup(r, 'html.parser' ) titles = soup. select ( 'div.hd a' ) rates = soup. select ( 'span.rating_num' ) pics = soup. select ( 'img[width="100"]' ) for title,rate,pic in zip(titles,rates,pics): data={ 'title' :list(title.stripped_strings), 'rate' :rate.get_text(), 'pic' :pic.get( 'src' )} i+=1 fileName=str(i)+ '_' +data[ 'title' ][0]+ ' ' +data[ 'rate' ]+ '分.jpg' pic1 = requests.get(data[ 'pic' ]) with open ( 'G:\\test\\' +fileName, 'wb' ) as photo: photo.write(pic1.content) print(data) |
爬取结果
作者:九命猫幺
博客出处:http://www.cnblogs.com/yongestcat/
欢迎转载,转载请标明出处。
如果你觉得本文还不错,对你的学习带来了些许帮助,请帮忙点击右下角的推荐
博客出处:http://www.cnblogs.com/yongestcat/
欢迎转载,转载请标明出处。
如果你觉得本文还不错,对你的学习带来了些许帮助,请帮忙点击右下角的推荐
标签:
爬豆瓣
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 字符编码:从基础到乱码解决