如何使用Python爬取数据

步骤

1、安装相关库

requestsbs4这两个包需要我们去把他们下载下来:

2、获取爬虫所需的header和cookie

可以随便打开一个网页,然后按下F12,进入js的语言设计部分,然后点击里面的网络(也就是NetWork部分),之后按下Ctrl+C,进行刷新;

若是刷新之后,出现文件信息,就停止刷新,否则就继续刷新吧!

然后右键出现的文件的名称(也就是name部分),选中复制(Copy),然后选择其中的复制为cURL(Bash)(不是all所有);

之后,带着我们复制的东西前往这个网站:https://curlconverter.com/

将东西复制到第一个文本框里面,第二个文本框里面会自动显示出相对应的CookieHeader内容,将其复制就行。

(被称作--请求头)

3、获取网页

将我们获取到的请求头复制到我们的程序中

获取网页:

4、解析网页

回到我们像要爬取的网页界面,同样按下F12,选中其中的元素部分(也就是Elements部分),会出现当前页面的相应代码;

之后,选中这个图标:

这个图标可以使得我们在原网页上点击某一部分,就会获取到该部分对应的代码;

我们用鼠标点击我们想要获取的改网页的相关内容后,然后,鼠标放在框框的代码上,右键,复制,到selector里面

5、分析信息,简化地址

如下所示,这是我获取到的三条数据:

scroller > div.vue-recycle-scroller__item-wrapper > div:nth-child(1) > div > div > div > div > div > div.woo-box-flex.woo-box-alignCenter.HotTopic_titout_1CFlj > a

scroller > div.vue-recycle-scroller__item-wrapper > div:nth-child(2) > div > div > div > div > div > div.woo-box-flex.woo-box-alignCenter.HotTopic_titout_1CFlj > a

scroller > div.vue-recycle-scroller__item-wrapper > div:nth-child(3) > div > div > div > div > div > div.woo-box-flex.woo-box-alignCenter.HotTopic_titout_1CFlj > a

取其相同的部分后,就可以另外得到这样一条数据(也就相当于提炼地址吧):

scroller > div.vue-recycle-scroller__item-wrapper > div > div > div > div > div > div > div.woo-box-flex.woo-box-alignCenter.HotTopic_titout_1CFlj > a

6、爬取内容,清洗数据

![](https://img2023.cnblogs.com/blog/2808014/202304/2808014-20230403022719795-1907945250.png

posted @ 2023-04-03 02:37  yesyes1  阅读(498)  评论(0编辑  收藏  举报