K-means分箱

一、“分箱”定义

各行各业的打工人，经常会面对一种令人尴尬的质疑：为什么你把15-25归为一类，10-20不行吗？13-23不行吗？

以及地产干饭人经常会被问到的：120-140㎡是主力，那119㎡行不行，118㎡呢？这个时候，通常大部分人会说那样也行。

可是那样真的行吗？吾不以为然也。而且，不但那样不行，这样也不是很行。提出问题，自然也要解决问题，下面就让我们一起来看看，怎样才算是真的行。

当我们在把一组连续的数据，进行分段研究的时候，这就是“分箱”。

意思是把一些初始元素，放到不同的“箱子”里去，用于增强数据的粒度，便于研究。比如把月薪水平分为：5000以下、5000-8000、8000-10000、10000-20000、20000以上。有时候分箱也可以进行调整和改变，比如薪酬也可以直接分成“8000以上”和“8000以下”。

同样，性别既可以分为4个箱：“男”、“女”、“无性别”、“双性别”；也可以分为2个箱：“性别明确”和“性别不明确”。

那么问题就来了，到底分成几个箱，以及按照怎样的标准来划分才更合适呢？

首先，最简单的是等距分箱、等频分箱以及自定义分箱。

所谓等距分箱，就是隔着同样的距离把整体切分。比如将薪酬按照1000-2000、2000-3000、3000-4000这样每隔1000分一段。亦或者将房地产产品面积按照每隔10平米划分为80-90、90-100、100-110、110-120。

而等频分箱，就是把整体每隔n个元素放在一起作为一个箱，比如一共有1000个样本，我们按照从小到大的顺序排序后，把前250个作为第一类。

自定义分箱就是通过经验和判断进行划分，或者说就是拍脑袋的。就比如我们把月薪分为了5000以下、5000-8000、8000-10000、10000-20000。

对于有些情况，自定义分箱是个不错的选择，有时候自定义分箱，也可以在其他分箱的基础上，来补充一些数据上无法体现的东西。

比如我们的模型里有“年龄”这一维度的数据，而研究目标是青少年的犯罪率，那么就应该适当地把年龄分为14岁以下、14-16岁、16岁以上（因为刑法规定14岁以下完全不承担任何刑事责任！）。

当然也有用各种各样有监督的无监督的手段来分箱的，都可以进行尝试。但今天我们要说的是一个纯粹根据数据分布规律进行分箱的策略——K-means分箱。

二、K-means分箱算法

K-means即K均值聚类算法，如果用过聚类的朋友们肯定就对它很熟悉了，这是最简单有效的聚类方式之一。

首先需要指定一个大于1的正整数K，然后随机选取K个元素作为整体的聚类中心，随后计算每个对象与各聚类中心的几何距离，用于把每个对象分配给不同的聚类中心，再计算形成的每个簇的新几何中心作为新的聚类中心，重复这一过程直到每个聚类中心不再变化。

K-means算法最大的优点，是它可以对于任意大于1的正整数K，根据数据的几何分布，来把数据划分成几类，显然K越大，分类效果越好，但为了避免过拟合的情况出现，我们也可以人为规定一个K，或者是K的上限，也可以通过一个判断来选择最优的K是多少。

对于K-means算法，在一维数组中也是可以用的，当然在多维度空间中也是可行的（就是统计学常用的K-means聚类，顺便说一下这也是通常K-means聚类不可以用于逻辑变量的原因，不要再乱用了同学们）。

大部分数据分析软件都有K-means现成的包，笔者认为相比于python和R， Matlab在数据处理上总是更胜一筹，最后也会给大家分享案例实现的代码。

K-means的核心在于，通过计算机去寻找数据的聚集点，从而在分箱的同时，避免了过多的信息丢失。

三、案例实现

假设我们现在有一些房地产项目的成交明细数据，其中有一列为面积，我们在研究中通常需要对分面积段进行研究，那么我们就需要把面积离散化，也就是进行分箱处理。

就以60-100平内的产品分4个箱为例进行研究。（数据样例）

传统房地产人会通过经验来定一些整数分段，比如60-80平、80-100平、100-120平这样，当然这也不是不行，我们就以10平米来分段，60-100之间被分成了4段。

可以看到此时总方差来到了15.07。

那么我们用W-K分箱（加权kmeans，在kmeans分箱的基础上附上套数作为权重），就可以得到结果如下

此时总方差仅有0.65，分箱效果碾压。

最后结果也就是89-91平是一个主力面积段，如果数据的分布改变了，分箱的间断点也会随之改变。

但经验法却总是会指引你去做90-99的产品，也就是有接近10平米的误差了，当然有的人会说，我经验丰富，总是能拍的很准，那也没问题，只是说如果总想用经验，其实很难每次都能获得正确的结论，就像玩俄罗斯轮盘，看起来这是个很简单的游戏，而且听说很少有人在自己的一生中会输第二次。

更何况算法分箱在无形之中降低了房地产的经验门槛，而且也更加合理。

posted @ 2023-02-07 10:13 DB乐之者阅读(436) 评论(0) 收藏举报

刷新页面返回顶部

Stay hungery