用Python告诉你:这些年,我们定过的的那些外卖
工作前几年,点了不知道多少外卖。从最开始的石景山到后来的海淀再到朝阳。外卖已经成了大部分上班族生活中不可或缺的一部分,中午公司附近的餐厅人满为患,只能点外卖!晚上加班,还是点外卖!!。 偶尔下班早了,路上买了菜买了肉准备大展身手,回到了合租的房子,发现隔壁小姐姐和男朋友在厨房做饭。得嘞,又一次打开App,点外卖!!!。
有时候又会面临这样的烦恼,今天吃个啥?这家麻辣烫不错,另一家麻辣香锅也不错,突然发现又有一家的专享红包快过期了。
今天正好有空,想统计一下过去时间里我在饿了么上的订单情况,看看这些日子里,吃了什么?贡献了多少钱,当然再看看有什么好吃的已经很久没吃了。
经过多次测试,总结了以下几条
-
为了方便可以在网页访问https://h5.ele.me,登录自己的账号
-
饿了么目前只能看到18年之后的账单
-
请求中只要携带包含登录信息的Cookie即可
-
近三个月订单与更早的订单,请求接口和参数稍有不同
通过手机&验证码登录自己的饿了么账号,成功之后会返回当前用户的user_id 和 登录Cookie。这两个信息为后续的请求提供必要的信息。
一开始访问订单,是这样的请求
h5.ele.me/restapi/bos/v2/users/26803312/orders?limit=8&offset=0
h5.ele.me/restapi/bos/v2/users/26803312/orders?limit=8&offset=8
h5.ele.me/restapi/bos/v2/users/26803312/orders?limit=8&offset=16
当继续下拉,出现"查看三个月前的外卖订单"按钮时,请求是这样的
h5.ele.me/restapi/bos/v2/users/26803312/old_orders?limit=8&from_time=
h5.ele.me/restapi/bos/v2/users/26803312/old_orders?limit=8&from_time=1557718107
from_time的值在上次请求的响应中可以看到
获取订单部分代码如下所示
"""
获取近3个月订单
"""
def get_new_order():
num = 0
while 1:
# 偏移量
offset = num * limit
response = requests.get(url + f'?limit={limit}&offset={offset}', headers=headers, verify=False)
resp_json = response.json()
insert_mongo(resp_json)
# 当响应订单数小于8时 跳出循环
if len(resp_json) < 8:
print('====================')
break
num += 1
"""
历史订单
"""
def history_order():
from_time = ''
while 1:
response = requests.get(old_url + f'?limit={limit}&from_time={from_time}', headers=headers, verify=False)
resp_json = response.json()
from_time = resp_json['from_time']
orders = resp_json['orders']
# 经过测试,最后一个订单时,会在请求一次 响应为空
if not orders:
break
insert_mongo(orders)
运行之后发现,这一年多的时间,光外卖竟然花费了1W多一点。爬取的数据可以选择将数据保存在csv文件中,也可以选择Mongod。这里我是插入到了MongoDB中
'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:857662006
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
def insert_mongo(resp_json):
if not resp_json:
return
for i in resp_json:
# 菜品
foods_group = i['basket']['group'][0]
for j in foods_group:
j['name'] = clean_data(j['name'])
with open('foods_name_banxia.txt', 'a+') as f:
f.write(j['name'] + '\n') # 将菜品写入文件,方便处理 # 配送费
deliver_price = 0
if 'deliver_fee' in i['basket'].keys():
deliver_price = i['basket']['deliver_fee']['price']
# 计算总花费
global total
total += i['total_amount']
# 餐馆名
restaurant_name = clean_data(i['restaurant_name'])
with open('restaurant_name_banxia.txt', 'a+') as f:
f.write(restaurant_name + '\n') # 记录餐馆名
clo.insert_one({
# 餐馆名
'restaurant_name': restaurant_name,
# 订单时间 formatted_created_at也可以取,但是近期的会显示xx小时之前
'created_timestamp': time_convert(i['created_timestamp']),
# 价格
'total_amount': i['total_amount'],
'foods_group': foods_group,
'deliver_price': deliver_price
})
在查看数据过程中,发现有的菜品和店铺名后面都有括号、或者方括号等特殊字符,里面的信息对我们来说也没有什么价值。可以简单的进行处理一下
import re
def clean_data(data):
a = re.sub("\\(.*?\\)|\\(.*?\\)|\\[.*?\\]|\\【.*?\\】|[A-Za-z0-9\@\\!\/]", "", data)
a = a.replace('盒', '').replace('克', '').replace('个', '')\
.replace('大份', '').replace('小份', '').replace('瓶', '').replace('组', '').replace(' ','')
return a
这样,我们就将订单中的信息存在了数据库中。为了方便统计我将每个订单的菜品、以及餐馆名保存在了txt文件中。
可以通过wordcloud将餐品进行一个简单的可视化
'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:857662006
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
from random import randint
from matplotlib import pyplot as plt
from wordcloud import WordCloud
def random_color(word=None, font_size=None, position=None, orientation=None, font_path=None, random_state=None):
"""Random Color func"""
r = randint(30, 255)
g = randint(30, 180)
b = int(100.0 * float(randint(60, 120)) / 255.0)
return "rgb({:.0f}, {:.0f}, {:.0f})".format(r, g, b)
content = open('foods_name.txt', encoding='utf-8').read()
wordcloud = WordCloud(background_color="white",
width=1000,
height=600,
max_font_size=50,
font_path='/System/Library/Fonts/PingFang.ttc', # 需要根据实际操作系统更换路径
color_func=random_color).generate(content)
plt.imshow(wordcloud)
plt.axis("off")
plt.savefig('ele_wordcloud.png', format='png', dpi=200)
结果如下,有没有口味一样的同学呢?
同样我们可以在终端通过sort命令去常光顾的餐馆进行统计
- sort -n 按照数值大小排序 升序
- sort -r 降序排列
- uniq -c 去重和统计
- head -5 展示前5条
cat mao_out.txt | sort | uniq -c | sort -rg | head -5
结果如下 去的最多的是贡贡米线和张亮麻辣烫,统计范围内均光顾了14次。
Python3XXXAir:$ cat restaurant_name.txt |sort|uniq -c| sort -rg| head -5
14 贡贡米线
14 张亮麻辣烫
13 京客隆
11 沁香缘家常菜
11 小巷麻辣香锅
可以通过matplotlib去统计一下每次定外卖的价格,并展示出来
'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:857662006
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
import pymongo
import matplotlib.pyplot as plt
client = pymongo.MongoClient('mongodb://localhost:27017/')
db = client['ele']
clo = db['info_banxia']
result = clo.find({})
y = [i['total_amount'] for i in result]
x = [i for i in range(len(y))]
plt.ylabel("The unit price")
plt.xlabel("Times")
plt.plot(x, y)
plt.show()
结果图:
可以看出,大部分价格在20 ~ 40 之间, 因为有时候为了满减,大部分都是跟同事朋友一起拼单。偶尔超过这个范围是买的水果、药等一些商品。
从这些数据中,我们同样得出,哪个月定外卖次数最为频繁
# 该月定外卖次数
count = []
for i in data:
ele_count = clo.count({'created_timestamp': re.compile(i)})
count.append(ele_count)
plt.scatter(data, count)
plt.xticks(rotation=45)
plt.show()
可以看出 18年3月定了22次外卖是最多的一次。11月份的时候定外卖次数最少。
以上从几个小方面简单的进行了统计。最后,大家辛苦工作的同时,也要多注意饮食卫生哟。
本文来自博客园,作者:I'm_江河湖海,转载请注明原文链接:https://www.cnblogs.com/jhhh/p/16763897.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通