爬虫爬取微博关键词

前言

用了 GitHub 上一个项目作为载体,该项目中有些代码需要修改

https://github.com/dataabc/weibo-search/

安装python

准备工作

  • 进入 weibosearchmaster

  • 进入 cmd

  • 安装所需要的库:
    • pip install scrapy
    • pip install -r requirements.txt
    • pip install jieba
    • pip install matplotlib
    • pip install imageio

设置参数

  • 进入 weibo

  • 打开 settings.py

  • 修改搜索词,开始日期,结束日期。

爬取

  • 进入 weibosearchmaster

  • 进入 cmd

  • 执行 scrapy crawl search

  • 等待爬取,不要点击

  • 得到结果文件文件夹,结果为 csv 格式

  • csv 改成英文名防止路径中文编码

统计

  • 进入结果 csv 文件,把除了评论内容的列全部手动删除

  • 执行 changeCsvToTxt.py
    设置输入输出文件路径

  • 得到 txt

  • 执行 wordsCount.py,得到词云图和词频 txt

本文作者:misasteria

本文链接:https://www.cnblogs.com/misasteria/p/16749444.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   misasteria  阅读(526)  评论(1编辑  收藏  举报
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起