python爬虫爬取B站视频字幕,简单的数据处理(pandas将字幕写入到CSV文件中)

上文,我们爬取到B站视频的字幕:https://www.cnblogs.com/becks/p/14540355.html

这篇,讲讲怎么把爬到的字幕写到CSV文件中,以便用于后面的分析

 

本文主要用到“pandas”这个库对数据进行处理

import pandas as pd

首先需要对爬取到的内容进行数据提取

comments = [comment.text for comment in results]#从爬取的数据中取出弹幕数据,返回文本内容

执行后如下图

 

然后生成字典

comments_dict = {'comments': comments}#创建字典,把字幕内容装入字典

 

处理数据,使数据以表格形式展示

df = pd.DataFrame(comments_dict)#格式化字幕字典,将字幕内容已表格格式显示

效果如下图

 

 

把格式化后的数据,存到CSV文件中

df.to_csv('B站字母.csv', encoding='utf-8-sig')#格式化后的字幕内容写入到CSV文件中

执行后,会在脚本同目录下生成CSV文件,文件内容如下图

 

 

 全部脚本

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

url = 'http://comment.bilibili.com/309778762.xml'
html = requests.get(url)
html.encoding='utf8'

soup = BeautifulSoup(html.text,'lxml')
results = soup.find_all('d')

comments = [comment.text for comment in results]#从爬取的数据中取出弹幕数据,返回文本内容
comments_dict = {'comments': comments}#创建字典,把字幕内容装入字典
df = pd.DataFrame(comments_dict)#格式化字幕字典,将字幕内容已表格格式显示
df.to_csv('B站字母.csv', encoding='utf-8-sig')#格式化后的字幕内容写入到CSV文件中

 

格式化数据“pd.DataFrame”函数的用法可以参考,https://www.cnblogs.com/andrew-address/p/13040035.html

posted @ 2021-05-07 11:32  小贝书屋  阅读(1681)  评论(0编辑  收藏  举报