数据挖掘作业4
商品零售购物篮分析
一、背景与挖掘目标
购物篮分析是商业领域最前沿、最具挑战性的问题之一,也是许多企业重点研究的问题。购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究顾客的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。本章使用Apriori关联规则算法实现购物篮分析,发现超市不同商品之间的关联关系,并根据商品之间的关联规则制定销售策略。
通过对商场销售数据进行分析,得到顾客的购买行为特征,并根据发现的规律而采取有效的行动,制定商品摆放、商品定价、新商品采购计划,对增加销量并获取最大利润有重要意义。
根据提供的数据实现以下目标:(1)构建零售商品的Apriori关联规则模型,分析商品之间的关联 性。(2)根据模型结果给出销售策略。
二、分析方法与过程
购物篮关联规则挖掘的主要步骤如下:
- 对原始数据进行数据探索性分析,分析商品的热销情况与商品结构。
- 对原始数据进行数据预处理,转换数据形式,使之符合Apriori 关联规则算法要求。
- 在步骤2得到的建模数据基础上,采用Apriori关联规则算法调整模型输入参数,完成商品关联性分析。
- 结合实际业务,对模型结果进行分析,根据分析结果给出销售建议,最后输出关联规则结果。
数据探索分析
某商品零售企业共收集了9835个购物篮数据,它主要包括3个属 性:id、Goods和Types。
1、数据特征
某商品零售企业共收集了9835个购物篮数据,它主要包括3个属 性:id、Goods和Types。
# 代码8-1 查看数据特征
2
3 import numpy as np
4 import pandas as pd
5
6 inputfile = 'E:/大三下/数据分析/数据/第八章/GoodsOrder.csv' # 输入的数据文件
7 data = pd.read_csv(inputfile,encoding = 'gbk') # 读取数据
8 data .info() # 查看数据属性
9
10 data = data['id']
11 description = [data.count(),data.min(), data.max()] # 依次计算总数、最小值、最大值
12 description = pd.DataFrame(description, index = ['Count','Min', 'Max']).T # 将结果存入数据框
13 print('描述性统计结果:\n',np.round(description)) # 输出结果
2、分析热销商品
商品热销情况分析是商品管理中不可或缺的一部分,热销情况分析可以助力商品优选。计算销量排行前10的商品销量及占比,并绘制条形图显示销量前10的商品销量情况。
1 # 代码8-2 分析热销商品
2
3 # 销量排行前10商品的销量及其占比
4 import pandas as pd
5 inputfile = 'E:/大三下/数据分析/数据/第八章/GoodsOrder.csv' # 输入的数据文件
6 data = pd.read_csv(inputfile,encoding = 'gbk') # 读取数据
7 group = data.groupby(['Goods']).count().reset_index() # 对商品进行分类汇总
8 sorted=group.sort_values('id',ascending=False)
9 print('销量排行前10商品的销量:\n', sorted[:10]) # 排序并查看前10位热销商品
10
11 # 画条形图展示出销量排行前10商品的销量
12 import matplotlib.pyplot as plt
13 x=sorted[:10]['Goods']
14 y=sorted[:10]['id']
15 plt.figure(figsize = (8, 4)) # 设置画布大小
16 plt.barh(x,y)
17 plt.rcParams['font.sans-serif'] = 'SimHei'
18 plt.xlabel('销量') # 设置x轴标题
19 plt.ylabel('商品类别') # 设置y轴标题
20 plt.title('2019320143322 商品的销量TOP10') # 设置标题
21 plt.savefig('E:/大三下/数据分析/数据/第八章/top10.png') # 把图片以.png格式保存
22 plt.show() # 展示图片
23
24 # 销量排行前10商品的销量占比
25 data_nums = data.shape[0]
26 for idnex, row in sorted[:10].iterrows():
27 print(row['Goods'],row['id'],row['id']/data_nums)
通过分析热销商品的结果可知,全脂牛奶的销售量最高,为2513 件,占比5.795%;其次是其他蔬菜、面包卷和苏打,占比分别为 4.388%、4.171%、3.955%。
3、分析商品结构
对每一类商品的热销程度进行分析,有利于商家制定商品在货架上的摆放策略和位置,若是某类商品较为热销,商场可以把此类商品摆放到商场的中心位置,以方便顾客选购;或者是放在商场深处的位置,使顾客在购买热销商品前经过非热销商品所在位置,增加在非热销商品处的停留时间,以促进非热销商品的销量。
原始数据中的商品本身已经经过归类处理,但是部分商品还是存在 一定的重叠,故需要再次对其进行归类处理。分析归类后各类别商品的销量及其占比后,绘制饼图来显示各类商品的销量占比情况。
1 # 代码8-3 各类别商品的销量及其占比
2
3 import pandas as pd
4 inputfile1 = 'E:/大三下/数据分析/数据/第八章/GoodsOrder.csv'
5 inputfile2 = 'E:/大三下/数据分析/数据/第八章/GoodsTypes.csv'
6 data = pd.read_csv(inputfile1,encoding = 'gbk')
7 types = pd.read_csv(inputfile2,encoding = 'gbk') # 读入数据
8
9 group = data.groupby(['Goods']).count().reset_index()
10 sort = group.sort_values('id',ascending = False).reset_index()
11 data_nums = data.shape[0] # 总量
12 del sort['index']
13
14 sort_links = pd.merge(sort,types) # 合并两个datafreame 根据type
15 # 根据类别求和,每个商品类别的总量,并排序
16 sort_link = sort_links.groupby(['Types']).sum().reset_index()
17 sort_link = sort_link.sort_values('id',ascending = False).reset_index()
18 del sort_link['index'] # 删除“index”列
19
20 # 求百分比,然后更换列名,最后输出到文件
21 sort_link['count'] = sort_link.apply(lambda line: line['id']/data_nums,axis=1)
22 sort_link.rename(columns = {'count':'percent'},inplace = True)
23 print('各类别商品的销量及其占比:\n',sort_link)
24 outfile1 = 'E:/大三下/数据分析/数据/第八章/percent.csv'
25 sort_link.to_csv(outfile1,index = False,header = True,encoding='gbk') # 保存结果
26
27 # 画饼图展示每类商品销量占比
28 import matplotlib.pyplot as plt
29 data = sort_link['percent']
30 labels = sort_link['Types']
31 plt.figure(figsize=(8, 6)) # 设置画布大小
32 plt.pie(data,labels=labels,autopct='%1.2f%%')
33 plt.rcParams['font.sans-serif'] = 'SimHei'
34 plt.title('2019320143322 每类商品销量占比') # 设置标题
35 plt.savefig('E:/大三下/数据分析/数据/第八章/persent.png') # 把图片以.png格式保存
36 plt.show()
通过分析各类别商品的销量及其占比情况可知,非酒精饮料、西点、果蔬3类商品的销量差距不大,占总销量的50%左右,同时,根据大类划分发现,和食品类的销量总和接近90%,说明顾客倾向于购买此类商品,而其余商品仅是商场为满足顾客的其他需求而设定的,并非销售的主力军。
(1)非酒精饮料类商品的内部商品结构
进一步查看销量第一的非酒精饮料类商品的内部商品结构,并绘制饼图显示其销量占比情况。
1 # 代码8-4 非酒精饮料内部商品的销量及其占比
2
3 # 先筛选“非酒精饮料”类型的商品,然后求百分比,然后输出结果到文件。
4 selected = sort_links.loc[sort_links['Types'] == '非酒精饮料'] # 挑选商品类别为“非酒精饮料”并排序
5 child_nums = selected['id'].sum() # 对所有的“非酒精饮料”求和
6 selected['child_percent'] = selected.apply(lambda line: line['id']/child_nums,axis = 1) # 求百分比
7 selected.rename(columns = {'id':'count'},inplace = True)
8 print('非酒精饮料内部商品的销量及其占比:\n',selected)
9 outfile2 = 'E:/大三下/数据分析/数据/第八章/child_percent.csv'
10 sort_link.to_csv(outfile2,index = False,header = True,encoding='gbk') # 输出结果
11
12 # 画饼图展示非酒精饮品内部各商品的销量占比
13 import matplotlib.pyplot as plt
14 data = selected['child_percent']
15 labels = selected['Goods']
16 plt.figure(figsize = (8,6)) # 设置画布大小
17 explode = (0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.08,0.3,0.1,0.3) # 设置每一块分割出的间隙大小
18 plt.pie(data,explode = explode,labels = labels,autopct = '%1.2f%%',
19 pctdistance = 1.1,labeldistance = 1.2)
20 plt.rcParams['font.sans-serif'] = 'SimHei'
21 plt.title("2019320143322 非酒精饮料内部各商品的销量占比") # 设置标题
22 plt.axis('equal')
23 plt.savefig('E:/大三下/数据分析/数据/第八章/child_persent.png') # 保存图形
24 plt.show() # 展示图形
通过分析非酒精饮料内部商品的销量及其占比情况可知,全脂牛奶的销量在非酒精饮料的总销量中占比超过33%,前3种非酒精饮料的销量在非酒精饮料的总销量中的占比接近70%,这就说明大部分顾客到店购买的饮料为这3种,而商场就需要时常注意货物的库存,定期补货。
西点类商品的内部商品结构
1 # 西点类的内部商品结构
2
3 # 先筛选“西点”类型的商品,然后求百分比,然后输出结果到文件。
4 selected = sort_links.loc[sort_links['Types'] == '西点'] # 挑选商品类别为“西点”并排序
5 child_nums = selected['id'].sum() # 对所有的“西点”求和
6 selected['child_percent_xidian'] = selected.apply(lambda line: line['id']/child_nums,axis = 1) # 求百分比
7 selected.rename(columns = {'id':'count'},inplace = True)
8 print('西点内部商品的销量及其占比:\n',selected)
9 outfile2 = 'E:/大三下/数据分析/数据/第八章/child_percent_xidian.csv'
10 sort_link.to_csv(outfile2,index = False,header = True,encoding='gbk') # 输出结果
11 # 画饼图展示西点内部各商品的销量占比
12 import matplotlib.pyplot as plt
13 data = selected['child_percent_xidian']
14 labels = selected['Goods']
15 plt.figure(figsize = (8,6)) # 设置画布大小
16 explode = (0.05,0.04,0.04,0.05,0.06,0.07,0.03,0.03,0.03,0.02,0.03,0.02,0.02,0.02,0.02,0.08,0.3,0.34,0.38,0.4,0.8) # 设置每一块分割出的间隙大小
17 plt.pie(data,explode = explode,labels = labels,autopct = '%1.2f%%',
18 pctdistance = 1.1,labeldistance = 1.2)
19 plt.rcParams['font.sans-serif'] = 'SimHei'
20 plt.title("2019320143322 西点内部各商品的销量占比") # 设置标题
21 plt.axis('equal')
22 plt.savefig('E:/大三下/数据分析/数据/第八章/child_persent_xidian.png') # 保存图形
23 plt.show() # 展示图形
(3)果蔬的内部商品结构
1 # 果蔬类的内部商品结构
2
3 # 先筛选“果蔬”类型的商品,然后求百分比,然后输出结果到文件。
4 selected = sort_links.loc[sort_links['Types'] == '果蔬'] # 挑选商品类别为“果蔬”并排序
5 child_nums = selected['id'].sum() # 对所有的“果蔬”求和
6 selected['child_percent_guoshu'] = selected.apply(lambda line: line['id']/child_nums,axis = 1) # 求百分比
7 selected.rename(columns = {'id':'count'},inplace = True)
8 print('果蔬内部商品的销量及其占比:\n',selected)
9 outfile2 = 'E:/大三下/数据分析/数据/第八章/child_percent_guoshu.csv'
10 sort_link.to_csv(outfile2,index = False,header = True,encoding='gbk') # 输出结果
11 # 画饼图展示果蔬内部各商品的销量占比
12 import matplotlib.pyplot as plt
13 data = selected['child_percent_guoshu']
14 labels = selected['Goods']
15 plt.figure(figsize = (8,6)) # 设置画布大小
16 explode = (0.02,0.02,0.04,0.03,0.04,0.04,0.03,0.02,0.01,0.03,0.08,0.2,0.4,0.6) # 设置每一块分割出的间隙大小
17 plt.pie(data,explode = explode,labels = labels,autopct = '%1.2f%%',
18 pctdistance = 1.1,labeldistance = 1.2)
19 plt.rcParams['font.sans-serif'] = 'SimHei'
20 plt.title("2019320143322 果蔬内部各商品的销量占比") # 设置标题
21 plt.axis('equal')
22 plt.savefig('E:/大三下/数据分析/数据/第八章/child_persent_guoshu.png') # 保存图形
23 plt.show() # 展示图形
(4)米粮调料的内部商品结构
1 # 米粮调料的内部商品结构
2
3 # 先筛选“米粮调料”类型的商品,然后求百分比,然后输出结果到文件。
4 selected = sort_links.loc[sort_links['Types'] == '米粮调料'] # 挑选商品类别为“米粮调料”并排序
5 child_nums = selected['id'].sum() # 对所有的“米粮调料”求和
6 selected['child_percent_miliang'] = selected.apply(lambda line: line['id']/child_nums,axis = 1) # 求百分比
7 selected.rename(columns = {'id':'count'},inplace = True)
8 print('米粮调料内部商品的销量及其占比:\n',selected)
9 outfile2 = 'E:/大三下/数据分析/数据/第八章/child_percent_miliang.csv'
10 sort_link.to_csv(outfile2,index = False,header = True,encoding='gbk') # 输出结果
11 # 画饼图展示米粮调料内部各商品的销量占比
12 import matplotlib.pyplot as plt
13 data = selected['child_percent_miliang']
14 labels = selected['Goods']
15 plt.figure(figsize = (8,6)) # 设置画布大小
16 explode = (0.05,0.04,0.04,0.05,0.06,0.07,0.03,0.03,0.03,0.02,0.03,0.02,0.02,0.02,0.02,0.02,0.02,0.02,0.02,0.02,0.02,0.02,0.02,0.03,0.03,0.03,0.08,0.3,0.34,0.38,0.4,0.8) # 设置每一块分割出的间隙大小
17 plt.pie(data,explode = explode,labels = labels,autopct = '%1.2f%%',
18 pctdistance = 1.1,labeldistance = 1.2)
19 plt.rcParams['font.sans-serif'] = 'SimHei'
20 plt.title("2019320143322 米粮调料内部各商品的销量占比") # 设置标题
21 plt.axis('equal')
22 plt.savefig('E:/大三下/数据分析/数据/第八章/child_persent_miliang.png') # 保存图形
23 plt.show() # 展示图形
(二)数据预处理
通过对数据探索分析发现数据完整,并不存在缺失值。建模之前需要转变数据的格式,才能使用Apriori函数进行关联分析。
1 # 代码8-5 数据转换
2
3 import pandas as pd
4 inputfile='E:/大三下/数据分析/数据/第八章/GoodsOrder.csv'
5 data = pd.read_csv(inputfile,encoding = 'gbk')
6
7 # 根据id对“Goods”列合并,并使用“,”将各商品隔开
8 data['Goods'] = data['Goods'].apply(lambda x:','+x)
9 data = data.groupby('id').sum().reset_index()
10
11 # 对合并的商品列转换数据格式
12 data['Goods'] = data['Goods'].apply(lambda x :[x[1:]])
13 data_list = list(data['Goods'])
14
15 # 分割商品名为每个元素
16 data_translation = []
17 for i in data_list:
18 p = i[0].split(',')
19 data_translation.append(p)
20 print('数据转换结果的前5个元素:\n', data_translation[0:5])
(三)模型构建
本案例的目标是探索商品之间的关联关系,因此采用关联规则算法,以挖掘它们之间的关联关系。关联规则算法主要用于寻找数据中项集之间的关联关系,它揭示了数据项间的未知关系。基于样本的统计规 律,进行关联规则分析。根据所分析的关联关系,可通过一个属性的信息来推断另一个属性的信息。当置信度达到某一阈值时,就可以认为规则成立。Apriori算法是常用的关联规则算法之一,也是最为经典的分析频繁项集的算法,它是第一次实现在大数据集上可行的关联规则提取的算法。除此之外,还有FP-Tree算法,Eclat算法和灰色关联算法等。本案例主要使用Apriori算法进行分析。
- 商品购物篮关联规则模型构建
由图可知,模型主要由输入、算法处理、输出3个部分组成。输 入部分包括建模样本数据的输入和建模参数的输入。算法处理部分是采用Apriori关联规则算法进行处理。输出部分为采用Apriori关联规则算法进行处理后的结果。
模型具体实现步骤:首先设置建模参数最小支持度、最小置信度, 输入建模样本数据;然后采用Apriori关联规则算法对建模的样本数据进行分析,以模型参数设置的最小支持度、最小置信度以及分析目标作为条件,如果所有的规则都不满足条件,则需要重新调整模型参数,否则输出关联规则结果。
目前,如何设置最小支持度与最小置信度并没有统一的标准。大部分都是根据业务经验设置初始值,然后经过多次调整,获取与业务相符的关联规则结果。本案例经过多次调整并结合实际业务分析,选取模型的输入参数为:最小支持度0.02、最小置信度0.35。其关联规则代码如下。
1 # 代码8-6 构建关联规则模型
2
3 from numpy import *
4
5 def loadDataSet():
6 return [['a', 'c', 'e'], ['b', 'd'], ['b', 'c'], ['a', 'b', 'c', 'd'], ['a', 'b'], ['b', 'c'], ['a', 'b'],
7 ['a', 'b', 'c', 'e'], ['a', 'b', 'c'], ['a', 'c', 'e']]
8
9 def createC1(dataSet):
10 C1 = []
11 for transaction in dataSet:
12 for item in transaction:
13 if not [item] in C1:
14 C1.append([item])
15 C1.sort()
16 # 映射为frozenset唯一性的,可使用其构造字典
17 return list(map(frozenset, C1))
18
19 # 从候选K项集到频繁K项集(支持度计算)
20 def scanD(D, Ck, minSupport):
21 ssCnt = {}
22 for tid in D: # 遍历数据集
23 for can in Ck: # 遍历候选项
24 if can.issubset(tid): # 判断候选项中是否含数据集的各项
25 if not can in ssCnt:
26 ssCnt[can] = 1 # 不含设为1
27 else:
28 ssCnt[can] += 1 # 有则计数加1
29 numItems = float(len(D)) # 数据集大小
30 retList = [] # L1初始化
31 supportData = {} # 记录候选项中各个数据的支持度
32 for key in ssCnt:
33 support = ssCnt[key] / numItems # 计算支持度
34 if support >= minSupport:
35 retList.insert(0, key) # 满足条件加入L1中
36 supportData[key] = support
37 return retList, supportData
38
39 def calSupport(D, Ck, min_support):
40 dict_sup = {}
41 for i in D:
42 for j in Ck:
43 if j.issubset(i):
44 if not j in dict_sup:
45 dict_sup[j] = 1
46 else:
47 dict_sup[j] += 1
48 sumCount = float(len(D))
49 supportData = {}
50 relist = []
51 for i in dict_sup:
52 temp_sup = dict_sup[i] / sumCount
53 if temp_sup >= min_support:
54 relist.append(i)
55 # 此处可设置返回全部的支持度数据(或者频繁项集的支持度数据)
56 supportData[i] = temp_sup
57 return relist, supportData
58
59 # 改进剪枝算法
60 def aprioriGen(Lk, k):
61 retList = []
62 lenLk = len(Lk)
63 for i in range(lenLk):
64 for j in range(i + 1, lenLk): # 两两组合遍历
65 L1 = list(Lk[i])[:k - 2]
66 L2 = list(Lk[j])[:k - 2]
67 L1.sort()
68 L2.sort()
69 if L1 == L2: # 前k-1项相等,则可相乘,这样可防止重复项出现
70 # 进行剪枝(a1为k项集中的一个元素,b为它的所有k-1项子集)
71 a = Lk[i] | Lk[j] # a为frozenset()集合
72 a1 = list(a)
73 b = []
74 # 遍历取出每一个元素,转换为set,依次从a1中剔除该元素,并加入到b中
75 for q in range(len(a1)):
76 t = [a1[q]]
77 tt = frozenset(set(a1) - set(t))
78 b.append(tt)
79 t = 0
80 for w in b:
81 # 当b(即所有k-1项子集)都是Lk(频繁的)的子集,则保留,否则删除。
82 if w in Lk:
83 t += 1
84 if t == len(b):
85 retList.append(b[0] | b[1])
86 return retList
87
88 def apriori(dataSet, minSupport=0.2):
89 # 前3条语句是对计算查找单个元素中的频繁项集
90 C1 = createC1(dataSet)
91 D = list(map(set, dataSet)) # 使用list()转换为列表
92 L1, supportData = calSupport(D, C1, minSupport)
93 L = [L1] # 加列表框,使得1项集为一个单独元素
94 k = 2
95 while (len(L[k - 2]) > 0): # 是否还有候选集
96 Ck = aprioriGen(L[k - 2], k)
97 Lk, supK = scanD(D, Ck, minSupport) # scan DB to get Lk
98 supportData.update(supK) # 把supk的键值对添加到supportData里
99 L.append(Lk) # L最后一个值为空集
100 k += 1
101 del L[-1] # 删除最后一个空集
102 return L, supportData # L为频繁项集,为一个列表,1,2,3项集分别为一个元素
103
104 # 生成集合的所有子集
105 def getSubset(fromList, toList):
106 for i in range(len(fromList)):
107 t = [fromList[i]]
108 tt = frozenset(set(fromList) - set(t))
109 if not tt in toList:
110 toList.append(tt)
111 tt = list(tt)
112 if len(tt) > 1:
113 getSubset(tt, toList)
114
115 def calcConf(freqSet, H, supportData, ruleList, minConf=0.7):
116 for conseq in H: #遍历H中的所有项集并计算它们的可信度值
117 conf = supportData[freqSet] / supportData[freqSet - conseq] # 可信度计算,结合支持度数据
118 # 提升度lift计算lift = p(a & b) / p(a)*p(b)
119 lift = supportData[freqSet] / (supportData[conseq] * supportData[freqSet - conseq])
120
121 if conf >= minConf and lift > 1:
122 print(freqSet - conseq, '-->', conseq, '支持度', round(supportData[freqSet], 6), '置信度:', round(conf, 6),
123 'lift值为:', round(lift, 6))
124 ruleList.append((freqSet - conseq, conseq, conf))
125
126 # 生成规则
127 def gen_rule(L, supportData, minConf = 0.7):
128 bigRuleList = []
129 for i in range(1, len(L)): # 从二项集开始计算
130 for freqSet in L[i]: # freqSet为所有的k项集
131 # 求该三项集的所有非空子集,1项集,2项集,直到k-1项集,用H1表示,为list类型,里面为frozenset类型,
132 H1 = list(freqSet)
133 all_subset = []
134 getSubset(H1, all_subset) # 生成所有的子集
135 calcConf(freqSet, all_subset, supportData, bigRuleList, minConf)
136 return bigRuleList
137
138 if __name__ == '__main__':
139 dataSet = data_translation
140 L, supportData = apriori(dataSet, minSupport = 0.02)
141 rule = gen_rule(L, supportData, minConf = 0.35)
例如{'其他蔬菜','酸奶'}=>{'全脂牛奶'}支持度约为2.23%,置信度约为51.29%。说明同时购买酸奶、其他蔬菜和全脂牛奶这3种商品的概率达51.29%,而这种情况发生的可能性约为2.23%。综合输出结果分析,顾客购买酸奶和其他蔬菜的时候会同时购买全脂牛奶,其置信度最大达到51.29%。因此,顾客同时购买其他蔬菜、根茎类蔬菜和全脂牛奶的概率较高。
2、模型分析
对于模型结果,从购物者角度进行分析:现代生活中,大多数购物者为“家庭煮妇”,购买的商品大部分是食品,随着生活质量的提高和健康意识的增加,其他蔬菜、根茎类蔬菜和全脂牛奶均为现代家庭每日饮食的所需品。因此,其他蔬菜、根茎类蔬菜和全脂牛奶同时购买的概率较高,符合人们的现代生活健康意识。
3、模型应用
以上的模型结果表明:顾客购买其他商品的时候会同时购买全脂牛奶。因此,商场应该根据实际情况将全脂牛奶放在顾客购买商品的必经之路上,或是放在商场显眼的位置,以方便顾客拿取。顾客同时购买其他蔬菜、根茎类蔬菜、酸奶油、猪肉、黄油、本地蛋类和多种水果的概率较高,因此商场可以考虑捆绑销售,或者适当调整商场布置,将这些商品的距离尽量拉近,从而提升顾客的购物体验。