数据分析与挖掘 - R语言:K-means聚类算法
2016-05-02 22:07 猎手家园 阅读(10222) 评论(1) 编辑 收藏 举报一个简单的例子!
环境:CentOS6.5
Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。
1、分析题目
--有一个用户点击数据样本(husercollect)
--按用户访问的时间(时)统计
--要求:分析时间和点击次数的聚类情况
2、数据准备
--创建临时表 DROP TABLE if exists tmp.t2_collect; CREATE TABLE tmp.t2_collect( h int, cnt int ) COMMENT '用户点击数据临时表'; --插入临时表 insert overwrite table tmp.t2_collect --分组 select a1.h, count(1) as cnt from( --取出时 select hour(createtime) as h from bdm.husercollect )a1 group by a1.h;
3、评估K值
#!/usr/bin/Rscript library(RHive) rhive.connect(host ='192.168.107.82') data <- rhive.query('select h,cnt from tmp.t2_collect limit 6000') x <- data$h y <- data$cnt --组合成数据框 df <- data.frame(x, y) --添加列名 colnames(df) <- c("hour", "cnt") --cluster.stats函数需要使用fpc库 library(fpc) --k取2到8评估K K <- 2:8 --每次迭代30次,避免局部最优 round <- 30 rst <- sapply(K, function(i){ print(paste("K=",i)) mean(sapply(1:round,function(r){ print(paste("Round",r)) result <- kmeans(df, i) stats <- cluster.stats(dist(df), result$cluster) stats$avg.silwidth })) }) --加载图形库 library(Cairo) png("k-points-pic.png", width=800, height=600) plot(K, rst, type='l', main='outline & R relation', ylab='outline coefficient') dev.off() rhive.close()
评估结果:
由上图可见当K=3时,轮廓系数最大。
4、聚类分析
#!/usr/bin/Rscript library(RHive) rhive.connect(host ='192.168.107.82') data <- rhive.query('select h,cnt from tmp.t2_collect limit 6000') x <- data$h y <- data$cnt --组合成数据框 df <- data.frame(x, y) --添加列名 colnames(df) <- c("hour", "cnt") --Kmeans kc <- kmeans(df, 3); --具体分类情况 --fitted(kc); library(Cairo) png("k-means-pic.png", width=800, height=600) plot(df[c("hour", "cnt")], col = kc$cluster, pch = 8); points(kc$centers[,c("hour", "cnt")], col = 1:3, pch = 8, cex=2); dev.off() rhive.close()
聚类结果:
至此,一个简单的K-means聚类算法实例完成!
欢迎关注我的公众号:云栖语,不一样的研发视界。

云栖语微信公众号:change-1978
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 字符编码:从基础到乱码解决
· 提示词工程——AI应用必不可少的技术