爬虫实战-微博评论爬取

简介

最近在做NLP方面的研究，以前一直在做CV方面。最近由于chatgpt，所以对NLP就非常感兴趣。索性就开始研究起来了。

其实我们都知道，无论是CV方向还是NLP方向的模型实现，都是离不开数据的。哪怕是再先进的代码，都是需要数据支撑的。但是我们的数据都来自哪里呢。无非就两个方面，一方面是来自于公开的数据集，或者就是个人收集。那么个人收集数据的方法，最常用的页就是爬虫了。通过爬虫采集数据是非常非常方便的。那么接下来我就来介绍一下如何使用爬虫来采集微博上的评论数据。

下面是我采集的数据，具体如下：

可以看到基本上就是两类，一类是关于评论数据方面的，这里包括评论id，评论的时间，评论的ip地址，另外一类就是发布评论的作者信息，这里包括了评论者的username,个人简介，粉丝数量、关注的人，以及性别等等。

代码使用

那么我们应该怎么使用这个代码呢：
我们主要分为两步，一步是修改代码中的cookie的值，另外一方面就是找到你需要爬取的微博的id，然后运行代码就可以了。

代码中的cookie位置如下，我们在此处就可以进行修改了

那么我们应该怎么找到自己的cookie信息呢。
我们首先打开浏览器，然后输入微博，然后进入微博页面，随便点一个微博就可以了，此时我们按F12,如下所示

接下来的话，我们刷新页面即可，此时有一大波数据来袭

然后我们如下所示，点击一个文件，然后就可以看到cookie值了。具体如下所示：

另外一步就是，获取到对应微博的id，获取方式如下所示。我们复制就可以了

然后粘贴到代码中就就可以了