利用基站定位数据进行商圈划分

一、问题概述

　　手机用户在使用短信、通话等业务、开关机、位置更新等的时候均产生定位数据，每条定位数据均包含了手机用户所处基站的编号、时间和唯一标识用户的EMASI号等。

　　将每个基站覆盖区域视为一个商圈，通过归纳基站覆盖区域的人流量和人均停留时间等特征，即可划分出不同类别的商圈。然后挑选出高价值商圈，并结合商圈用户活动特点，有针对性开展促销等活动。

　　现在共有431名用户的定位信息（Excel格式），包含用户编号以及如下考查指标：

　　1.人均流量：反应商圈的大致用户密度

　　2.工作日上班时段人均停留时间：用以识别上班人群集中的商圈

　　3.凌晨人均停留时间：用以识别住宅区居民集中的商圈

　　4.周末人均停留时间：用以识别周末时段人群集中的商圈

　　分析主要分两步，首先用tableau进行可视化分析，了解各基站（商圈）的大致情况；然后通过机器学习，采用聚类算法，对各商圈进行进一步的标识。

二、初步分析

　　从以下图中，可以看到各商圈的日均人流量和各时段的停留时间情况。其中在人均停留时间的三张图中，均有明显的断层现象，我们可以初步判定，断层处即为商圈的类别划分点，断层左边的商圈表示该时段人均停留时间长，右边表示停留时间短。

三、聚类分析

　　由于各个属性之间的数量级相差较大，在进行聚类前，需要进行离差标准化处理，即将各属性数据按比例缩放到一定范围,得到建模数据。

代码如下:

import pandas as pd
import sklearn.preprocessing as prc
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False    # 用来正常显示负号

data=pd.read_excel("../data/business_circle.xls")                     # 读取数据

pm=prc.MinMaxScaler()
data_rd=pm.fit_transform(data.ix[:,1:])                               # 数据标准化
data_rd= pd.DataFrame(data_rd,columns=data.columns[1:])               # 标准化后的数据重新转为df格式

　　采用层次聚类算法对建模数据进行聚类，画出谱系聚类图。聚类类别数取3 ，根据聚类结果，输出聚类结果存入excel，并绘制各类别的四个特征折线图。

代码如下：

import pandas as pd
import sklearn.preprocessing as prc
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei']          # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False            # 用来正常显示负号

data=pd.read_excel("../data/business_circle.xls")                     # 读取数据

pm=prc.MinMaxScaler()
data_rd=pm.fit_transform(data.ix[:,1:])                               # 数据标准化
data_rd=pd.DataFrame(data_rd,columns=data.columns[1:])                # 标准化后的数据重新转为df格式

# print(data_rd)

from scipy.cluster.hierarchy import linkage,dendrogram                # 导入scipy的层次聚类函数
Z=linkage(data_rd,method="ward",metric="euclidean")                   # 谱系聚类图
P=dendrogram(Z,0)                                                     # 画谱系聚类图
# plt.show()


from sklearn.cluster import AgglomerativeClustering                      # 导入sklearn的层次聚类函数
model = AgglomerativeClustering(n_clusters = 3, linkage = 'ward')        # 设置参数，建立模型
model.fit(data_rd)                                                       # 训练模型

r= pd.concat([data_rd,pd.Series(model.labels_,index = data_rd.index)],axis = 1)     # 详细输出每个样本对应的类别
r.columns = list(data_rd.columns) + [u'聚类类别']                                    # 重命名表头

style = ['ro-', 'go-', 'bo-']
xlabels = [u'工作日上班时间人均停留时间', u'凌晨人均停留时间', u'周末人均停留时间', u'日均人流量']
pic_output = '../result/picture/type_'                                                                   # 聚类图片文件名前缀

for i in range(3):                                          # 逐一作图，作出不同样式
    plt.figure()
    tmp = r[r[u'聚类类别'] == i].ix[:, :4]                  # 提取每一类,用于绘制折线图
    data_rs=r[r[u'聚类类别'] == i].ix[:,:]                  # 提取每一类，包含类别号
    data_rs=pd.merge(data,data_rs,how="outer", \
                     on=[u'工作日上班时间人均停留时间', u'凌晨人均停留时间', u'周末人均停留时间', u'日均人流量'], \
             )                                               # 加上基站编号，再用于输出
    data_rs["聚类类别"] = i + 1
    data_rs.to_excel("../result/data"+str(i+1)+".xls")       # 每一类保存为一个单独excel文件
    for j in range(len(tmp)):
        plt.plot(range(1, 5), tmp.iloc[j], style[i])
    plt.xticks(range(1, 5), xlabels, rotation=20)               # 坐标标签
    plt.title(u'商圈类别%s' % (i + 1))                           # 商圈类别名称，从1开始编号
    plt.subplots_adjust(bottom=0.15)                            # 调整底部
    plt.savefig(u'%s%s.png' % (pic_output, i))                  # 保存图片

谱系聚类图：

从以上三张图来看

类别2凌晨和周末人均停留时间较长，工作日人均停留时间短，日均人流量小，可以认为是住宅区域。

类别3工作日人均停留时间长，凌晨和周末人均停留时间较短，人流量偏小，可以认为是工作区域。

以上两类区域，如果开展促销活动，可以考虑采取一些针对居民和上班族特点的方式。

类别1在3个时段人均停留时间均不长，但人流量最大，我们认为这类人群相对于住宅区居民和上班人士，往往会对促销之类活动更有兴趣，因此，该类商圈是最宜进行促销的。在输出的结果文件中找到该类的基站编号，即能确定具体的活动地点。

posted @ 2018-09-15 11:58 todaynowind 阅读(1756) 评论(0) 收藏举报

刷新页面返回顶部

风不想过

利用基站定位数据进行商圈划分

公告