Python爬取网易云歌曲评论，做词云分析

前言

emmmm 没什么说的，想说的都在代码里

环境使用

Python 3.8 解释器 3.10

Pycharm 2021.2 专业版

selenium 3.141.0

本次要用到selenium模块，所以请记得提前下载好浏览器驱动，配置好环境

对于本篇文章有疑问的同学可以加【资料白嫖、解答交流群：753182387】

代码实现

先是安装、导入所需模块

from selenium import webdriver  # 导入浏览器的功能
import re   # 正则表达式模块, 内置
import time   # 时间模块, 程序延迟

1. 创建一个浏览器对象

driver = webdriver.Chrome()

2. 执行自动化

driver.get('https://music.163.com/#/song?id=488249475')
# selenium无法直接获取到嵌套页面里面的数据
driver.switch_to.frame(0)  # switch_to.frame()  切换到嵌套网页
driver.implicitly_wait(10)  # 让浏览器加载的时候, 等待渲染页面

下拉页面, 直接下拉到页面的底部

js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight'
driver.execute_script(js)

3.解析数据

divs = driver.find_elements_by_css_selector('.itm')  # 所有div  css语法: 定位到 html 数据/xpath/正则

for div in divs:
    cnt = div.find_element_by_css_selector('.cnt.f-brk').text

    cnt = re.findall('：(.*)', cnt)[0]  # 中英文有区别
    print(cnt)

保存数据

翻页

for page in range(10):  # 控制翻页  速度太快
    # 翻页 , 找到下一页标签, 点击?
    driver.find_element_by_css_selector('.znxt').click()
    time.sleep(1)
# selenium  欲速则不达

保存为txt文件

with open('contend.txt', mode='a', encoding='utf-8') as f:
    f.write(cnt + '\n')

运行代码得到结果

再做个词云

导入相关模块

import jieba  # 中文分词库  pip install jieba
import wordcloud  # 制作词云图的模块  pip install wordcloud
import imageio

读取文件数据

with open('contend.txt', mode='r', encoding='utf-8') as f:
    txt = f.read()
print(txt)

词云图分词<中文(词语)> 基于结果

txt_list = jieba.lcut(txt)
print('分词结果:', txt_list)

合并

string_ = ' '.join(txt_list)  # 1 + 1 = 2   字符串的基本语法
print('合并分词:', string_)

创建词云图

wc = wordcloud.WordCloud(
    width=1000,  # 图片的宽
    height=800,  # 图片的高
    background_color='white',  # 图片的背景色
    font_path='msyh.ttc',  # 微软雅黑
    scale=15,  # 词云图默认的字体大小
    # mask=img,  # 指定词云图的图片

    # 停用词< 语气词, 助词,....
    stopwords=set([line.strip() for line in open('cn_stopwords.txt', mode='r', encoding='utf-8').readlines()] )
)
print('正在绘制词云图...')
wc.generate(string_)  # 绘制词云图
wc.to_file('out.png')  # 保存词云图
print('词云图绘制完成...')

最后效果

posted @ 2022-05-27 19:45 松鼠爱吃饼干阅读(320) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Python获取“双十一”商品评论，做词云分析，一个简单的案例教学

· Python爬虫案例：采集青创网批发商品数据（附代码）

· 自主学习：01爬取网易云评论

· Python批量下载歌曲评论并制作词云图

· 抓取网易云音乐的评论数据并做可视化分析 - Python

阅读排行：
· DeepSeek “源神”启动！「GitHub 热点速览」
· 微软正式发布.NET 10 Preview 1：开启下一代开发框架新篇章
· 我与微信审核的“相爱相杀”看个人小程序副业
· C# 集成 DeepSeek 模型实现 AI 私有化（本地部署与 API 调用教程）
· spring官宣接入deepseek，真的太香了~

历史上的今天：
2021-05-27 Python爬虫基础讲解（十二）：初探selenium——动态网页&静态网页

公告

p y t h o n 学习交流裙 7 5 3 1 8 8 3 8 7 Python基础入门视频教程，点击即可观看

昵称：松鼠爱吃饼干
园龄： 3年11个月
粉丝： 56
关注： 0

+加关注

2025年2月

日

一

二

三

四

五

六

随笔分类

Python爬虫案例分享(58)

松鼠爱吃饼干

源码、资料分享、问题解答群：753182387

Python爬取网易云歌曲评论，做词云分析

前言

环境使用

对于本篇文章有疑问的同学可以加【资料白嫖、解答交流群：753182387】

代码实现

先是安装、导入所需模块

1. 创建一个浏览器对象

2. 执行自动化

下拉页面, 直接下拉到页面的底部

3.解析数据

保存数据

翻页

保存为txt文件

运行代码得到结果

再做个词云

导入相关模块

读取文件数据

词云图分词<中文(词语)> 基于结果

合并

创建词云图

最后效果

公告

搜索

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

源码、资料分享、问题解答群：753182387

前言

环境使用

代码实现

先是安装、导入所需模块

1. 创建一个浏览器对象

2. 执行自动化

下拉页面, 直接下拉到页面的底部

3.解析数据

保存数据

翻页

保存为txt文件

运行代码得到结果

再做个词云

导入相关模块

读取文件数据

词云图 分词<中文(词语)> 基于结果

合并

创建词云图

最后效果

公告

搜索

积分与排名

随笔档案

词云图分词<中文(词语)> 基于结果