使用python爬取豆瓣电影短评评论内容
需求:爬取豆瓣电影短评评论文本内容
目标:将爬取的文本存入 excel 中
爬虫步骤:
1.拼接分页网址,循环请求分页数据,获取HTML代码
2.分析获取到的HTML代码,解析出所需要的数据,提取内容
3.存储爬取到的数据
准备工作:
1.开发工具 pycharm
2.模块 requests、bs4或 pyquery
爬虫实际流程:
第一步:我们从豆瓣电影中选取一部电影(https://movie.douban.com/subject/35766491/),进入短评列表页面(https://movie.douban.com/subject/35766491/comments?status=P)
第二步:打开 f12开发者工具,我去取评论文本部分,查看网页结构。
目标评论文本部分对应的 class 类名为 comment,评论列表对应的类名为 comment-item
使用 pyquery 解析获取列表数据,代码如下:
form pyquery import PyQuery as pq
doc = pq(html)
comment_list = doc(‘.comment-item’).items()
For item in comment_list:
comment = item(‘.comment’).text()

【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)