爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

1.前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

PS：如有需要Python学习资料的小伙伴可以点击下方链接自行获取

Python免费学习资料、代码以及交流解答点击即可加入

上一篇文章[以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』]利用了scrapy爬取B站数据。本文将在此基础上完善代码，爬取更多的内容并保存到csv。

总共爬取1907条『课程学习』数据，分析哪类学习资源最火热最受大学生群体青睐。并通过可视化的方式将结果进行展示！

2.数据获取

程序是接着[以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』]进行完善

1.各个scrapy文件

items文件


class BiliItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    #pass
    # 视频标题
    title = scrapy.Field()
    # 链接
    url = scrapy.Field()
    # 观看量
    watchnum = scrapy.Field()
    # 弹幕数
    dm = scrapy.Field()
    # 上传时间
    uptime = scrapy.Field()
    # 作者
    upname = scrapy.Field()

增加了四个字段（观看量、弹幕数、上传时间、作者）

lyc文件


class LycSpider(scrapy.Spider):
    name = 'lyc'
    allowed_domains = ['bilibili.com']
    start_urls = ['https://search.bilibili.com/all?keyword=大学课程&page=40']

    # 爬取的方法
    def parse(self, response):
        item = BiliItem()
        # 匹配
        for jobs_primary in response.xpath('//*[@id="all-list"]/div[1]/ul/li'):
            item['title'] = (jobs_primary.xpath('./a/@title').extract())[0]
            item['url'] = (jobs_primary.xpath('./a/@href').extract())[0]
            item['watchnum'] = (jobs_primary.xpath('./div/div[3]/span[1]/text()').extract())[0].replace("\n", "").replace(" ", "")
            item['dm'] = (jobs_primary.xpath('./div/div[3]/span[2]/text()').extract())[0].replace("\n", "").replace(" ", "")
            item['uptime'] = (jobs_primary.xpath('./div/div[3]/span[3]/text()').extract())[0].replace("\n", "").replace(" ", "")
            item['upname'] = (jobs_primary.xpath('./div/div[3]/span[4]/a/text()').extract())[0]


            # 不能使用return
            yield item

        # 获取当前页的链接
        url = response.request.url
        #page +1

        new_link = url[0:-1]+str(int(url[-1])+1)
        # 再次发送请求获取下一页数据
        yield scrapy.Request(new_link, callback=self.parse)

为新增的四个字段进行网页标签解析

pipelines文件


import csv

class BiliPipeline:

    def __init__(self):
        #打开文件，指定方式为写，利用第3个参数把csv写数据时产生的空行消除
        self.f = open("lyc大学课程.csv", "a", newline="")
        # 设置文件第一行的字段名，注意要跟spider传过来的字典key名称相同
        self.fieldnames = ["title", "url","watchnum","dm","uptime","upname"]
        # 指定文件的写入方式为csv字典写入，参数1为指定具体文件，参数2为指定字段名
        self.writer = csv.DictWriter(self.f, fieldnames=self.fieldnames)
        # 写入第一行字段名，因为只要写入一次，所以文件放在__init__里面
        self.writer.writeheader()

    def process_item(self, item, spider):
        # print("title:", item['title'][0])
        # print("url:", item['url'][0])
        # print("watchnum:", item['watchnum'][0].replace("\n","").replace(" ",""))
        # print("dm:", item['dm'][0].replace("\n", "").replace(" ", ""))
        # print("uptime:", item['uptime'][0].replace("\n", "").replace(" ", ""))
        # print("upname:", item['upname'][0])

        print("title:", item['title'])
        print("url:", item['url'])
        print("watchnum:", item['watchnum'])
        print("dm:", item['dm'])
        print("uptime:", item['uptime'])
        print("upname:", item['upname'])


        # 写入spider传过来的具体数值
        self.writer.writerow(item)
        # 写入完返回
        return item

    def close(self, spider):
        self.f.close()

将爬取的内容保存到csv文件（lyc大学课程.csv）

2.启动scrapy


scrapy crawl lyc

通过上述命令可以启动scrapy项目

3.爬取结果

一共爬取1914条数据，最后经过简单清洗最终可用数据1907条！

3.数据分析

1.大学生学习视频播放量排名

读取数据


dataset  = pd.read_csv('Bili\\lyc大学课程.csv',encoding="gbk")
title = dataset['title'].tolist()
url = dataset['url'].tolist()
watchnum = dataset['watchnum'].tolist()
dm = dataset['dm'].tolist()
uptime = dataset['uptime'].tolist()
upname = dataset['upname'].tolist()

数据处理


#分析1:  & 分析2
def getdata1_2():
    watchnum_dict = {}
    dm_dict = {}
    for i in range(0, len(watchnum)):
        if "万" in watchnum[i]:
            watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000)
        else:
            watchnum[i] = int(watchnum[i])

        if "万" in dm[i]:
            dm[i] = int(float(dm[i].replace("万", "")) * 10000)
        else:
            dm[i] = int(dm[i])

        watchnum_dict[title[i]] = watchnum[i]
        dm_dict[title[i]] = dm[i]

    ###从小到大排序
    watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0]))
    dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))
    #分析1：大学生学习视频播放量排名"
    analysis1(watchnum_dict,"大学生学习视频播放量排名")

数据可视化


def pie(name,value,picname,tips):
    c = (
        Pie()
            .add(
            "",
            [list(z) for z in zip(name, value)],
            # 饼图的中心（圆心）坐标，数组的第一项是横坐标，第二项是纵坐标
            # 默认设置成百分比，设置成百分比时第一项是相对于容器宽度，第二项是相对于容器高度
            center=["35%", "50%"],
        )
            .set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"])  # 设置颜色
            .set_global_opts(
            title_opts=opts.TitleOpts(title=""+str(tips)),
            legend_opts=opts.LegendOpts(type_="scroll", pos_left="70%", orient="vertical"),  # 调整图例位置
        )
            .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
            .render(str(picname)+".html")
    )

分析

1.【片片】《人间课堂》播放量最高，播放量:202万。
2.在B站从大学课程的内容学习吸引人远不上一些课堂内容有趣的话题。

2.大学生学习视频弹幕量排名

数据处理


watchnum_dict = {}
dm_dict = {}
for i in range(0, len(watchnum)):
    if "万" in watchnum[i]:
        watchnum[i] = int(float(watchnum[i].replace("万", "")) * 10000)
    else:
        watchnum[i] = int(watchnum[i])

    if "万" in dm[i]:
        dm[i] = int(float(dm[i].replace("万", "")) * 10000)
    else:
        dm[i] = int(dm[i])

    watchnum_dict[title[i]] = watchnum[i]
    dm_dict[title[i]] = dm[i]

###从小到大排序
watchnum_dict = sorted(watchnum_dict.items(), key=lambda kv: (kv[1], kv[0]))
    dm_dict = sorted(dm_dict.items(), key=lambda kv: (kv[1], kv[0]))
#分析2：大学生学习视频弹幕量排名
analysis1(dm_dict,"大学生学习视频弹幕量排名")

数据可视化


###饼状图
def pie(name,value,picname,tips):
    c = (
        Pie()
            .add(
            "",
            [list(z) for z in zip(name, value)],
            # 饼图的中心（圆心）坐标，数组的第一项是横坐标，第二项是纵坐标
            # 默认设置成百分比，设置成百分比时第一项是相对于容器宽度，第二项是相对于容器高度
            center=["35%", "50%"],
        )
            .set_colors(["blue", "green", "yellow", "red", "pink", "orange", "purple"])  # 设置颜色
            .set_global_opts(
            title_opts=opts.TitleOpts(title=""+str(tips)),
            legend_opts=opts.LegendOpts(type_="scroll", pos_left="70%", orient="vertical"),  # 调整图例位置
        )
            .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
            .render(str(picname)+".html")
    )

分析

1.在弹幕数排行中《数据结构与算法基础》最高，弹幕数：33000
2.通过弹幕量的排行来看，可以看到大家都喜欢在什么样的课堂视频上留言。
3.与播放量对比，大学生喜欢在课堂内容学习视频上进行发言！

3.up主大学生学习视频视频数

数据处理


#分析3: up主大学生学习视频视频数
def getdata3():
    upname_dict = {}
    for key in upname:
        upname_dict[key] = upname_dict.get(key, 0) + 1
        ###从小到大排序
    upname_dict = sorted(upname_dict.items(), key=lambda kv: (kv[1], kv[0]))
    itemNames = []
    datas = []
    for i in range(len(upname_dict) - 1, len(upname_dict) - 21, -1):
        itemNames.append(upname_dict[i][0])
        datas.append(upname_dict[i][1])
    #绘图
    bars(itemNames,datas)

数据可视化


###柱形图
def bars(name,dict_values):

    # 链式调用
    c = (
        Bar(
            init_opts=opts.InitOpts(  # 初始配置项
                theme=ThemeType.MACARONS,
                animation_opts=opts.AnimationOpts(
                    animation_delay=1000, animation_easing="cubicOut"  # 初始动画延迟和缓动效果
                ))
        )
            .add_xaxis(xaxis_data=name)  # x轴
            .add_yaxis(series_name="up主昵称", yaxis_data=dict_values)  # y轴
            .set_global_opts(
            title_opts=opts.TitleOpts(title='李运辰', subtitle='up视频数',  # 标题配置和调整位置
                                      title_textstyle_opts=opts.TextStyleOpts(
                                          font_family='SimHei', font_size=25, font_weight='bold', color='red',
                                      ), pos_left="90%", pos_top="10",
                                      ),
            xaxis_opts=opts.AxisOpts(name='up主昵称', axislabel_opts=opts.LabelOpts(rotate=45)),
            # 设置x名称和Label rotate解决标签名字过长使用
            yaxis_opts=opts.AxisOpts(name='大学生学习视频视频数'),

        )
            .render("up主大学生学习视频视频数.html")
    )

分析

1.在大学课程视频的up主中，up主视频中与大学课堂有关的视频数排行
2.在大学课程视频数排行中，视频数最多的是：小白在学习呢

4.大学课程名称词云化

数据处理


text = "".join(title)
with open("stopword.txt","r", encoding='UTF-8') as f:
    stopword = f.readlines()
for i in stopword:
    print(i)
    i = str(i).replace("\r\n","").replace("\r","").replace("\n","")
    text = text.replace(i, "")

数据可视化


word_list = jieba.cut(text)
result = " ".join(word_list)  # 分词用 隔开
# 制作中文云词
icon_name = 'fab fa-qq'
"""
# icon_name='',#国旗
# icon_name='fas fa-dragon',#翼龙
icon_name='fas fa-dog',#狗
# icon_name='fas fa-cat',#猫
# icon_name='fas fa-dove',#鸽子
# icon_name='fab fa-qq',#qq
"""
gen_stylecloud(text=result, icon_name=icon_name, font_path='simsun.ttc', output_name="大学课程名称词云化.png")  # 必须加中文字体，否则格式错误

分析

1.以北京大学和清华大学的课程为主，课程标题含有着两个大学的居多。
2.这些视频标题中大多数以：基础、公开课、课件、考研、大学物理等关键词。

4.总结

1.通过Scrapy框架爬取1907条『B站』大学课程学习资源数据。
2.对数据进行可视化展示以及凝练精简分析。
3.可能数据还有更多未分析或者挖掘的信息，欢迎在下方留言，提出你宝贵的建议！

posted @ 2021-03-11 14:56 酸菜鱼学Python 阅读(166) 评论(0) 编辑收藏举报

刷新页面返回顶部

爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

1.前言

2.数据获取

1.各个scrapy文件

items文件

lyc文件

pipelines文件

2.启动scrapy

3.爬取结果

3.数据分析

1.大学生学习视频播放量排名

读取数据

数据处理

数据可视化

分析

2.大学生学习视频弹幕量排名

数据处理

数据可视化

分析

3.up主大学生学习视频视频数

数据处理

数据可视化

分析

4.大学课程名称词云化

数据处理

数据可视化

分析

4.总结

公告