爬虫爬取微博关键词

前言

用了 \(GitHub\) 上一个项目作为载体，该项目中有些代码需要修改

https://github.com/dataabc/weibo-search/

安装python

准备工作

进入 \(weibo-search-master\)

进入 \(cmd\)

安装所需要的库：
- pip install scrapy
- pip install -r requirements.txt
- pip install jieba
- pip install matplotlib
- pip install imageio

设置参数

进入 \(weibo\)
打开 \(settings.py\)
修改搜索词，开始日期，结束日期。

爬取

进入 \(weibo-search-master\)
进入 \(cmd\)
执行 scrapy crawl search
等待爬取，不要点击
得到结果文件文件夹，结果为 \(csv\) 格式
将 \(csv\) 改成英文名防止路径中文编码

统计

进入结果 \(csv\) 文件，把除了评论内容的列全部手动删除
执行 \(changeCsvToTxt.py\)
设置输入输出文件路径
得到 \(txt\)
执行 \(wordsCount.py\)，得到词云图和词频 \(txt\)。

posted @ 2022-10-02 20:55 misasteria 阅读(494) 评论(1) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部