爬取B站的文章并存入csv表

 

前言:

对于一个网站的图片、文字音视频等,如果我们一个个的下载,不仅浪费时间,而且很容易出错。Python爬虫帮助我们获取需要的数据,这个数据是可以快速批量的获取。

 

工具使用:

开发工具: Visual Studio

开发环境:python-3.9.7-amd64, Windows10

 

使用工具包:

1
2
3
4
5
6
import requests
from lxml import etree
import os
# 下载进度条
from tqdm import tqdm
import csv

项目思路解析:

 

 

这里拿到请求地址https://search.bilibili.com/article?keyword=敬业&page=1,然后定位自己需要的元素

 

 

 

Li标签里面就是我们需要的数据,然后我们定位到关键词里标题,最后以此类推元素的代码位置。

 

 

 

 

代码如下:

这里的关键字可以后期代码输入,不用写死数据,便于不用频繁的修改代码。

 

 

 

还有这里的页数,也是可以用代码进行抓完全部网页数据,这里为了演示就把数据写死了,只爬取两页数据。

 

 

 

 

 

以下是元素(例如:标题,热度的数据)定位的代码

 

 

这里的replace是为了清除不需要的数据,方便于后面的数据分析。

 

 

 

 

拿完数据,我们就要把数据进行存储化,存入csv表。

这里是建立一个文件夹,用于存放csv表

 

 

 

Csv存入的地址的名字

 

 

 

书写csv的表头

 

 

 

意思是csv的表头

 

 

 

项目完整代码:

 

  

程序运行结果:

复制代码
1 https://search.bilibili.com/article?keyword=敬业&page=1
2 
3 https://search.bilibili.com/article?keyword=敬业&page=2
4 
5 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 40108.09it/s]
6 
7 打印完毕!!!
View Code
复制代码

 

 

 

参考:https://blog.csdn.net/lucky_shi/article/details/105172283

posted @   YXCR  阅读(253)  评论(3编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 因为Apifox不支持离线,我果断选择了Apipost!
· 通过 API 将Deepseek响应流式内容输出到前端
点击右上角即可分享
微信分享提示