2018年11月25日
摘要: 1、问题 一个有意思的业务题,给一批用户数据,每条数据由网络IP和该条上网记录的时时间戳组成;如何设计可用特征,用于区分此批数据是属于网吧用户还是家庭用户? 2、部分思路 (1)最直观的可从原始数据中获取用户上网集中时间情况,一般而言,家庭用户较为集中在某些时间点(如晚上),而网吧用户则全天候都很有 阅读全文
posted @ 2018-11-25 20:11 知识的容量瓶 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 一、K-Means算法原理 二、Hadoop实现K-Means的做法 1、伪代码 (1)主要参数 输入: 参数0--存储样本数据的文本文件inputfile; 参数1--存储样本数据的SequenceFile文件inputPath; 参数2--存储质心数据的SequenceFile文件centerP 阅读全文
posted @ 2018-11-25 19:09 知识的容量瓶 阅读(1189) 评论(0) 推荐(0) 编辑