爬取3w条『各种品牌』笔记本电脑数据，统计分析并进行可视化展示！真好看~...

本文代码讲解已录成视频，欢迎扫码学习！

本文手撕代码过程

前言

在上一篇文章【教你用python爬取『京东』商品数据，原来这么简单！】教大家如何学会爬取『京东』商城商品数据。

今天教大家如何爬取『京东』平台里面『各种品牌』笔记本电脑数据约30000条进行统计分析，最后进行可视化展示（各种可视化图表真好看！！）

本文干货内容：

爬取京东商品所有笔记本电脑数据
数据存储到excel
pandas对excel数据进行统计分析
绘制各种可视化图表

爬取数据

1.链接分析

之前介绍了爬取其中的一种商品，这里需要爬取『各种品牌』，对应的链接也不一样，需要进行分析。

可以分析链接中，ev参数对应着品牌的名称，因此只需要更改ev参数就可以爬取不同品牌的笔记本数据。

避坑：

注意不要遗漏后面的括号：联想（lenovo），少了后面括号有一些品牌的数据无法爬取（亲测证明）。

此外不同品牌的笔记本商品数据总量（总页数）不一样，因此同样需要对应进行汇总，这里定义了字典去存储1.品牌名称和2.总页数。

brand_dict={
    '联想（lenovo）':100,
    'ThinkPad':100,
    '戴尔（DELL）':100,
    '惠普（HP）':100,
    '华为（HUAWEI）':100,
    'Apple':100,
    '小米（MI）':47,
    '宏碁（acer）':43,
    '荣耀（HONOR）':21,
    '机械革命（MECHREVO）':31,
    '微软（Microsoft）':100,
    'LG':3,
    '神舟（HASEE）':34,
    'VAIO':3,
    '三星（SAMSUNG）':47,
}

2.获取不同品牌笔记本数据

#李运辰 公众号：python爬虫数据分析挖掘
#遍历每一页
def getpage(brand_dict):
    global  count
    for k, v in brand_dict.items():
        page = 1
        s = 1
        brand = str(k)
        try:
            for i in range(1, int(v) + 1):
                url = "https://search.jd.com/search?keyword=笔记本&wq=笔记本&ev=exbrand_" + str(brand) + "&page=" + str(
                    page) + "&s=" + str(s) + "&click=1"
                getlist(url, brand)
                page = page + 2
                s = s + 60
                print("品牌=" + str(k) + ",页数=" + str(v) + ",当前页数=" + str(i))
        except:
            pass

这里加入了try-except，防止其中某一页爬取失败，造成程序终止！

3.遍历每一页数据

#李运辰 公众号：python爬虫数据分析挖掘
###获取每一页的商品数据
def getlist(url,brand):
    global  count
    #url="https://search.jd.com/search?keyword=笔记本&wq=笔记本&ev=exbrand_联想%5E&page=9&s=241&click=1"
    res = requests.get(url,headers=headers)
    res.encoding = 'utf-8'
    text = res.text
    selector = etree.HTML(text)
    list = selector.xpath('//*[@id="J_goodsList"]/ul/li')
    for i in list:
        title=i.xpath('.//div[@class="p-name p-name-type-2"]/a/em/text()')[0]
        price = i.xpath('.//div[@class="p-price"]/strong/i/text()')[0]

这里只获取商品标题和商品价格

4.数据存储到excel

定义excel表头

#李运辰 公众号：python爬虫数据分析挖掘
import openpyxl
outwb = openpyxl.Workbook()
outws = outwb.create_sheet(index=0)
outws.cell(row=1, column=1, value="index")
outws.cell(row=1, column=2, value="brand")
outws.cell(row=1, column=3, value="title")
outws.cell(row=1, column=4, value="price")
count = 2

写数据并保存成笔记本电脑-李运辰.xls

outws.cell(row=count, column=1, value=str(count-1))
outws.cell(row=count, column=2, value=str(brand))
outws.cell(row=count, column=3, value=str(title))
outws.cell(row=count, column=4, value=str(price))
outwb.save("笔记本电脑-李运辰.xls")  # 保存

这样我们的数据就已经爬取完成。

下面开始对这些数据进行统计分析，最后绘制可视化图。

可视化分析

1.展示每个品牌的数据量

pandas读取excel

#李运辰 公众号：python爬虫数据分析挖掘
#读入数据
df_all = pd.read_csv("笔记本电脑-李运辰.csv",engine="python")
df = df_all.copy()
# 重置索引
df = df.reset_index(drop=True)

统计分析

#李运辰 公众号：python爬虫数据分析挖掘
brand_counts = df.groupby('brand')['price'].count().sort_values(ascending=False).reset_index()
brand_counts.columns = ['品牌', '数据量']
name = (brand_counts['品牌']).tolist()
dict_values = (brand_counts['数据量']).tolist()

可视化展示

#李运辰 公众号：python爬虫数据分析挖掘
#链式调用
c = (
    Bar(
        init_opts=opts.InitOpts(  # 初始配置项
            theme=ThemeType.MACARONS,
            animation_opts=opts.AnimationOpts(
                animation_delay=1000, animation_easing="cubicOut"  # 初始动画延迟和缓动效果
            ))
    )
        .add_xaxis(xaxis_data=name)  # x轴
        .add_yaxis(series_name="展示每个品牌的数据量", yaxis_data=dict_values)  # y轴
        .set_global_opts(
        title_opts=opts.TitleOpts(title='', subtitle='',  # 标题配置和调整位置
                                  title_textstyle_opts=opts.TextStyleOpts(
                                      font_family='SimHei', font_size=25, font_weight='bold', color='red',
                                  ), pos_left="90%", pos_top="10",
                                  ),
        xaxis_opts=opts.AxisOpts(name='品牌', axislabel_opts=opts.LabelOpts(rotate=45)),
        # 设置x名称和Label rotate解决标签名字过长使用
        yaxis_opts=opts.AxisOpts(name='数据量'),


    )
        .render("展示每个品牌的数据量.html")
)

2.最高价格对比

统计分析

#李运辰 公众号：python爬虫数据分析挖掘
brand_maxprice = df.groupby('brand')['price'].agg(['max'])['max'].sort_values(ascending=False).reset_index()
brand_maxprice.columns = ['品牌', '最高价']
name = (brand_maxprice['品牌']).tolist()
dict_values = (brand_maxprice['最高价']).tolist()

可视化展示

#李运辰 公众号：python爬虫数据分析挖掘
##去掉英文名称
for i in range(0, len(name)):
    if "（" in name[i]:
        name[i] = name[i][0:int(name[i].index("（"))]


# 链式调用
c = (
    Bar(
        init_opts=opts.InitOpts(  # 初始配置项
            theme=ThemeType.MACARONS,
            animation_opts=opts.AnimationOpts(
                animation_delay=1000, animation_easing="cubicOut"  # 初始动画延迟和缓动效果
            ))
    )
        .add_xaxis(xaxis_data=name)  # x轴
        .add_yaxis(series_name="最高价格对比", yaxis_data=dict_values)  # y轴
        .set_global_opts(
        title_opts=opts.TitleOpts(title='', subtitle='',  # 标题配置和调整位置
                                  title_textstyle_opts=opts.TextStyleOpts(
                                      font_family='SimHei', font_size=25, font_weight='bold', color='red',
                                  ), pos_left="90%", pos_top="10",
                                  ),
        xaxis_opts=opts.AxisOpts(name='品牌', axislabel_opts=opts.LabelOpts(rotate=45)),
        # 设置x名称和Label rotate解决标签名字过长使用
        yaxis_opts=opts.AxisOpts(name='最高价'),


    )
        .render("最高价格对比.html")
)

3.价格均值

统计分析

#李运辰 公众号：python爬虫数据分析挖掘
brand_meanprice = df.groupby('brand')['price'].agg(['mean'])['mean'].sort_values(ascending=False).reset_index()
brand_meanprice.columns = ['品牌', '价格均值']
name = (brand_meanprice['品牌']).tolist()
dict_values = (brand_meanprice['价格均值']).tolist()


##去掉英文名称
for i in range(0, len(name)):
    if "（" in name[i]:
        name[i] = name[i][0:int(name[i].index("（"))]


#价格转为整数
for i in range(0, len(dict_values)):
        dict_values[i] = int(dict_values[i])

可视化展示

#李运辰 公众号：python爬虫数据分析挖掘
# 链式调用
c = (
    Bar(
        init_opts=opts.InitOpts(  # 初始配置项
            theme=ThemeType.MACARONS,
            animation_opts=opts.AnimationOpts(
                animation_delay=1000, animation_easing="cubicOut"  # 初始动画延迟和缓动效果
            ))
    )
        .add_xaxis(xaxis_data=name)  # x轴
        .add_yaxis(series_name="价格均值对比", yaxis_data=dict_values)  # y轴
        .set_global_opts(
        title_opts=opts.TitleOpts(title='', subtitle='',  # 标题配置和调整位置
                                  title_textstyle_opts=opts.TextStyleOpts(
                                      font_family='SimHei', font_size=25, font_weight='bold', color='red',
                                  ), pos_left="90%", pos_top="10",
                                  ),
        xaxis_opts=opts.AxisOpts(name='品牌', axislabel_opts=opts.LabelOpts(rotate=45)),
        # 设置x名称和Label rotate解决标签名字过长使用
        yaxis_opts=opts.AxisOpts(name='价格均值'),


    )
        .render("价格均值对比.html")
    )

4.各大品牌标题词云

提取文本

#李运辰 公众号：python爬虫数据分析挖掘
brand_title = df.groupby('brand')['title']
brand_title = list(brand_title)
for z in range(0,len(brand_title)):
    brandname = brand_title[z][0]
    if "（" in brandname:
        brandname = brandname[0:int(brandname.index("（"))]
    brandname = str(brandname).encode("utf-8").decode('utf8')
    print(brandname)
    text = "".join((brand_title[z][1]).tolist())
    text = text.replace(brand_title[z][0],"").replace(brandname,"").replace("\n\r","").replace("\t","").replace("\n","").replace("\r","").replace("【","").replace("】","").replace(" ","")
    #print(text)
    with open("text/"+str(brandname)+".txt","a+") as f:
        f.write(text)

这里将不同品牌的标题文本写入到txt

可视化展示

#李运辰 公众号：python爬虫数据分析挖掘
def an4_pic():
    ###词云图标
    fa_list = ['fas fa-play', 'fas fa-audio-description', 'fas fa-circle', 'fas fa-eject', 'fas fa-stop',
               'fas fa-video', 'fas fa-volume-off', 'fas fa-truck', 'fas fa-apple-alt', 'fas fa-mountain',
               'fas fa-tree', 'fas fa-database', 'fas fa-wifi', 'fas fa-mobile', 'fas fa-plug']
    z=0
    ##开始绘图
    for filename in os.listdir("text"):
        print(filename)
        with open("text/"+filename,"r") as f:
             text = (f.readlines())[0]


        with open("stopword.txt", "r", encoding='UTF-8') as f:
            stopword = f.readlines()
        for i in stopword:
            print(i)
            i = str(i).replace("\r\n", "").replace("\r", "").replace("\n", "")
            text = text.replace(i, "")
        word_list = jieba.cut(text)
        result = " ".join(word_list)  # 分词用 隔开
        # 制作中文云词
        icon_name = str(fa_list[z])
        gen_stylecloud(text=result, icon_name=icon_name, font_path='simsun.ttc',output_name=str(filename.replace(".txt",""))+"词云图.png")  # 必须加中文字体，否则格式错误
        z =z+1