正则爬取豆瓣Top250数据存储到CSV文件(6行代码)
利用正则爬取豆瓣TOP250电影信息
- 电影名字
- 电影年份
- 电影评分
- 评论人数
import requests
import csv
import re
# 不算导包的话正式代码6行 存储到csv文件
url = "https://movie.douban.com/top250?start={}&filter="
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36"}
obj = re.compile(r'a.*?<span class="title">(.*?)</span>.*?<br>\s+(.*?)&.*?:average">(.*?)</span>.*?<span>(.*?)人评价</span>', re.S)
with open('douban250.csv', 'w', encoding='utf-8', newline='') as file:
csv_write = csv.writer(file)
[csv_write.writerows(obj.findall(requests.get(url=url.format(page), headers=headers).text)) for page in range(0, 226, 25)]
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步