爬虫爬取微博关键词

前言

用了 \(GitHub\) 上一个项目作为载体,该项目中有些代码需要修改

https://github.com/dataabc/weibo-search/

安装python

准备工作

  • 进入 \(weibo-search-master\)

  • 进入 \(cmd\)

  • 安装所需要的库:
    • pip install scrapy
    • pip install -r requirements.txt
    • pip install jieba
    • pip install matplotlib
    • pip install imageio

设置参数

  • 进入 \(weibo\)

  • 打开 \(settings.py\)

  • 修改搜索词,开始日期,结束日期。

爬取

  • 进入 \(weibo-search-master\)

  • 进入 \(cmd\)

  • 执行 scrapy crawl search

  • 等待爬取,不要点击

  • 得到结果文件文件夹,结果为 \(csv\) 格式

  • \(csv\) 改成英文名防止路径中文编码

统计

  • 进入结果 \(csv\) 文件,把除了评论内容的列全部手动删除

  • 执行 \(changeCsvToTxt.py\)
    设置输入输出文件路径

  • 得到 \(txt\)

  • 执行 \(wordsCount.py\),得到词云图和词频 \(txt\)

posted @ 2022-10-02 20:55  misasteria  阅读(494)  评论(1编辑  收藏  举报