python爬虫爬取B站视频字幕，简单的数据处理（pandas将字幕写入到CSV文件中）

上文，我们爬取到B站视频的字幕：https://www.cnblogs.com/becks/p/14540355.html

这篇，讲讲怎么把爬到的字幕写到CSV文件中，以便用于后面的分析

本文主要用到“pandas”这个库对数据进行处理

import pandas as pd

首先需要对爬取到的内容进行数据提取

comments = [comment.text for comment in results]#从爬取的数据中取出弹幕数据，返回文本内容

执行后如下图

然后生成字典

comments_dict = {'comments': comments}#创建字典，把字幕内容装入字典

处理数据，使数据以表格形式展示

df = pd.DataFrame(comments_dict)#格式化字幕字典，将字幕内容已表格格式显示

效果如下图

把格式化后的数据，存到CSV文件中

df.to_csv('B站字母.csv', encoding='utf-8-sig')#格式化后的字幕内容写入到CSV文件中

执行后，会在脚本同目录下生成CSV文件，文件内容如下图

全部脚本

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

url = 'http://comment.bilibili.com/309778762.xml'
html = requests.get(url)
html.encoding='utf8'

soup = BeautifulSoup(html.text,'lxml')
results = soup.find_all('d')

comments = [comment.text for comment in results]#从爬取的数据中取出弹幕数据，返回文本内容
comments_dict = {'comments': comments}#创建字典，把字幕内容装入字典
df = pd.DataFrame(comments_dict)#格式化字幕字典，将字幕内容已表格格式显示
df.to_csv('B站字母.csv', encoding='utf-8-sig')#格式化后的字幕内容写入到CSV文件中

格式化数据“pd.DataFrame”函数的用法可以参考，https://www.cnblogs.com/andrew-address/p/13040035.html

posted @ 2021-05-07 11:32 小贝书屋阅读(1829) 评论(0) 收藏举报

刷新页面返回顶部

python爬虫爬取B站视频字幕，简单的数据处理（pandas将字幕写入到CSV文件中）

公告