Python数据分析5大经典练手项目之项目一(餐厅订单数据分析)【待完结】
环境:
shell工具:git bash(自行下载),对比cmd:几乎接近linux命令
jupyter lab是jupyter notebook升级版
实操:
桌面右键点击git bash here进入mingw64界面
输入jupyter lab进入网页
点击python3进入操作页面
数据分析与可视化的具体实现内容:
1.订单表的长度:shape,columns
2.统计菜名的平均价格(amounts)
3.什么菜最受欢迎
4.哪个订单ID点的菜最多
(用四个#形成记录文本对操作界面不受影响)
具体代码部分:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']='SimHei' ##设置中文显示
%matplotib inline
#1.加载数据
data1=pd.read_excel('meal_order_detail.xlsx',sheet_name='meal_order_detail1')
data2=pd.read_excel('meal_order_detail.xlsx',sheet_name='meal_order_detail2')
data3=pd.read_excel('meal_order_detail.xlsx',sheet_name='meal_order_detail3')
#2.数据预处理(NA等处理),分析数据
data=pd.concat([data1,data2,data3],axis=0) #按照行进行拼接数据
#data.head(5) #前面5条
data.info() #原始数据查看(细节查找)
data.dropna(axis=1,inplace=True) #删除无效行
data.info()
#统计卖出菜品的平均价格
round(data['amounts'].mean(),2) #方法一:pandas自带函数
round(np.mean(data['amounts'],2) #方法二:numpy函数处理
#频数统计,什么菜最受欢迎(对菜名进行频数统计,取最大前10名)
dishes_count=data['dishes_name'].value_counts()[:10] (不加这个[:10]之前他会把所有的数据统统列出来)
print(dishes_count)
#3.数据可视化matplotlib
dishes_count.plot(kind='line',color=['r']) //条形图上方绘制一根红线
dishes_count.plot(kind='bar',fontsize=16) 条形图字体大小