Python爬虫爬取B站up主所有动态内容

请注意，爬虫的使用应遵守网站的爬虫政策和法律法规，不要对网站造成不必要的负担或违反服务条款。

通过浏览器审查元素查看网络日志，发现每次获取动态信息的请求地址都相同，首次加载时offset为空：

https://api.bilibili.com/x/polymer/web-dynamic/v1/feed/space?host_mid=25470223&offset=

随着网页的不断下拉，offset参数无规律变换，第二次及以后的offset就在上一次次请求返回的json里的"offset"中，将"offset"的值带入下一次请求的参数中即可循环爬取。动态下拉到头时，json中"has_more"会由true变为false，可以以此判断是否结尾。此时的代码如下：

 def fetch_data(offset):
 
    # 请求的URL
    url = "https://api.bilibili.com/x/polymer/web-dynamic/v1/feed/space"
 
    # 请求参数
    params = {
        "offset": offset,
        "host_mid": 25470223
    }
 
    # 发送请求
    response = requests.get(url, params=params, headers=headers)
 
    # 解析JSON数据
    data = response.json()
    print(data) # 自行处理json对象
 
    # 检查是否还有更多数据
    if data['data']['has_more']:
        # 如果有更多数据，使用新的offset发起新的请求
        fetch_data(data['data']['offset'])
 
# 从offset为空开始
fetch_data("")

直接爬取时，无法直接获取到数据，经网上查询为鉴权错误
{"code":-352,"message":"-352","ttl":1}

这时需要添加请求头及必要的cookie，添加后可以正常爬取，"response.json()"即为响应json字符串，可自行存储后单独处理。并添加延时参数防止以后都逛不了B站：

 import json
import time
import requests
 
# 添加请求头
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36',
    'Cookie':'buvid3=...; b_nut=...; _uuid=...; buvid4=...;' # up主动态页审查元素自行获取，必传
}
 
def fetch_data(offset):
 
    # 每次请求时延时0.1秒
    time.sleep(0.1)
 
    # 请求的URL
    url = "https://api.bilibili.com/x/polymer/web-dynamic/v1/feed/space"
 
    # 请求参数
    params = {
        "offset": offset,
        "host_mid": 25470223 # up主id，up主动态页审查元素自行获取
    }
 
    # 发送请求
    response = requests.get(url, params=params, headers=headers)
 
    # 解析JSON数据
    data = response.json()
    print(data) # 自行处理json对象
 
    # 检查是否还有更多数据
    if data['data']['has_more']:
        # 如果有更多数据，使用新的offset发起新的请求
        fetch_data(data['data']['offset'])
 
# 从offset为空开始
fetch_data("")

posted @ 2024-05-08 14:31 qiao39gs 阅读(775) 评论(4) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Python实时获取心率广播心率

· Python从3.7开始各版本新增特性和示例

· 爬取B站UP主信息

· python爬取动态网站

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

公告

昵称： qiao39gs
园龄： 1年1个月
粉丝： 1
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

qiao39gs

Python爬虫爬取B站up主所有动态内容

公告

常用链接

我的标签

随笔分类

随笔档案

最新评论

	def fetch_data(offset):

	# 请求的URL
	url = "https://api.bilibili.com/x/polymer/web-dynamic/v1/feed/space"

	# 请求参数
	params = {
	"offset": offset,
	"host_mid": 25470223
	}

	# 发送请求
	response = requests.get(url, params=params, headers=headers)

	# 解析JSON数据
	data = response.json()
	print(data) # 自行处理json对象

	# 检查是否还有更多数据
	if data['data']['has_more']:
	# 如果有更多数据，使用新的offset发起新的请求
	fetch_data(data['data']['offset'])

	# 从offset为空开始
	fetch_data("")

	import json
	import time
	import requests

	# 添加请求头
	headers = {
	'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.7',
	'Accept-Language': 'zh-CN,zh;q=0.9',
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36',
	'Cookie':'buvid3=...; b_nut=...; _uuid=...; buvid4=...;' # up主动态页审查元素自行获取，必传
	}

	def fetch_data(offset):

	# 每次请求时延时0.1秒
	time.sleep(0.1)

	# 请求的URL
	url = "https://api.bilibili.com/x/polymer/web-dynamic/v1/feed/space"

	# 请求参数
	params = {
	"offset": offset,
	"host_mid": 25470223 # up主id，up主动态页审查元素自行获取
	}

	# 发送请求
	response = requests.get(url, params=params, headers=headers)

	# 解析JSON数据
	data = response.json()
	print(data) # 自行处理json对象

	# 检查是否还有更多数据
	if data['data']['has_more']:
	# 如果有更多数据，使用新的offset发起新的请求
	fetch_data(data['data']['offset'])

	# 从offset为空开始
	fetch_data("")