摘要: Spark UDF Java 示例 在 "这篇文章" 中提到了用Spark做用户昵称文本聚类分析,聚类需要选定K个中心点,然后迭代计算其他样本点到中心点的距离。由于中文文字分词之后(n gram)再加上昵称允许各个特殊字符(数字、字母、各种符号……),如果直接在原来的文本数据上进行聚类,由于文本的“ 阅读全文
posted @ 2018-11-30 22:12 大熊猫同学 阅读(8240) 评论(0) 推荐(0) 编辑