用Python爬取某蔬菜网的行情,分析底哪个地区的蔬菜便宜

https://www.cnblogs.com/hhh188764/p/13556807.html

前言

夏季到来,合理饮食很关键。夏季的饮食讲究清淡,多吃蔬菜有利于养生。那么哪个地区的蔬菜批发价格要便宜一些呢?让我们用Python爬取某蔬菜网的行情价格,来分析下,到底哪个地区的蔬菜,要更便宜一些。

分析页面

 

这是网页的页面

我们先看下第1/2/3页链接的联系:

http://www.vegnet.com.cn/Price/List_p1.html
http://www.vegnet.com.cn/Price/List_p2.html
http://www.vegnet.com.cn/Price/List_p3.html

通过页面可以看出只有P1/2/3的位置发生了变动,这样的话,我们可以构建一个循环来改变链接。因为一天行情价格的页面数达到了163页,为了防止不必要的麻烦,我们只抓取1天的,来分析下各地区蔬菜价格的差异。

我们要爬取的字段是:日期/品种/批发市场/最低价格/最高价格/平均价格/计量单位。

 

通过F12查看网页源代码可以看出我们要的字段都在span标签的class属性里面。

导入各种库

import requests as rq  
import xlsxwriter    
import  time         #设置休眠时间

编写代码

file_name = "蔬菜网.xlsx"
workbook = xlsxwriter.Workbook(file_name)
worksheet = workbook.add_worksheet("蔬菜网")
worksheet.write(0, 0, "日期")
worksheet.write(0, 1, "品种")
worksheet.write(0, 2, "市场")
worksheet.write(0, 3, "最低价")
worksheet.write(0, 4, "最低价")
worksheet.write(0, 5, "平均价")
worksheet.write(0, 6, "单位")
DD = 1
UU=1
while UU != 164:
    url = "http://www.vegnet.com.cn/Price/List_p" + str(UU) + ".html"
    H = rq.get(url)
    t = H.text
    for K in range(1,26):
 ......                  #为了避免不必要的麻烦,我们只展示一部分代码,中间的部分省略,有需要的同学可以联系我们。
        DD = DD + 1
    UU = UU + 1
    time.sleep(30)       #休眠时间为30秒
workbook.close()

分析数据

 

爬取下来的源数据是这样的,其中包含120种瓜果蔬菜,我们需要做进一步的整理,把价格的单元格格式从文本改成数值格式。

我们做一个饼图来看下这些瓜果蔬菜批发市场数量排名前十的占比情况。

 

通过饼图我们可以分析得出批发市场数量最多的前10名里樱桃西红柿的批发市场数量最多,其次是光皮黄瓜、葱头、茄子和空心菜。

接下来我们看下对胡萝卜/西兰花的价格分析

胡萝卜

 

我们一共爬取了96家批发市场的胡萝卜价格,我们做了一个直方图直观的看一下胡萝卜的批发价格区间。

 

可以看到,大多数批发市场的胡萝卜价格在1.18元到1.51元之间。

江苏联谊农副产品批发市场的价格最高,平均价格是3元/斤,而河北魏县天仙果菜批发交易市场的价格最低,平均价格在0.85元/斤。

西兰花

 

我们一共爬取了57家西兰花批发市场的市场报价,然后选取了报价最高的前10个批发市场做一个折线图,来看下他的报价。

 

可以看到湖北鄂州市蟠龙蔬菜批发市场的报价是最高的,平均价格为6.5元/斤,排名并列第十的是浙江嘉善曹安农产品批发有限公司、山东青岛黄河路农产品批发市场、黑龙江鹤岗市万圃源蔬菜有限责任公司,平均价格价格为5元/斤。

PS:如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取

 

可以免费领取源码、项目实战视频、PDF文件等

 

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

posted on 2020-11-24 10:25  四海骄阳  阅读(909)  评论(1编辑  收藏  举报

导航