数据预处理的好帮手-密度图

密度图原本是来自连续概率密度,后来演化成各种密度图。今天参考了各种模型,包括k-means,逻辑模型,都是将密度图放在最先。

看来密度图真真是个宝。

 

今天举个密度图好用的又一个例子。密度图是数据预处理的一把好镜子。

举个例子,

南极有很多漂亮的企鹅,帝企鹅,蓝眼企鹅,黄眼企鹅等等等等,他们发现了一个风景特别好的冰川,他们有事没事就成群结队的到那块冰川上聊天。于是一传十,十传百,好多企鹅都慕名而来。我们叫这块冰川叫清月吧。

我们取一天,比如公元2060年2月29日吧,那可是企鹅们的大日子,我们分析一下,这天首次登陆清月的企鹅们在一年后的10月还有多少登陆这块冰川呢。希望那时候不会有厄尔尼诺现象,清月不会缩小,影响企鹅宝宝的心情。以下为企鹅最后一次登陆清月的时间间隔的分布。

 

 

 

其实61年10月-60年2月29日的时间也很靠近600,所以一定是有些宝宝第一次登陆清月,很失望,也可能人太多,也可能没抢到好位置,再也不来了。结果确实是将近40%的宝宝们不来了。再也不来了。。。

 

剔除掉那些来了就再也不来的宝宝们后为上图。可见明显的两头高,中间低。左边是受10月份月朗星稀的影响,企鹅们还挺爱来清月看风景,右边是那群三分钟热度的小企鹅,最开始来的挺勤,后来又去别的地方玩了,早忘记清月是啥地方了。

针对密度图给出的情况,我们可以将企鹅宝宝们分成四个部分,分开研究。一,只来一次的企鹅们;二,回溯200天有来过的宝宝们,三,最后一次登陆距离截止时间200-400天的宝宝们,四,最后一次登陆距今400多天的宝宝们。

 

就酱紫,密度图很好的完成了企鹅分类和预处理的工作。手工赞!

 

posted on 2016-08-01 20:53  小麦粒  阅读(521)  评论(0编辑  收藏  举报

导航