摘要:
代码: package com.test import org.apache.spark.SparkConf import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg. 阅读全文
摘要:
思路 研究特征 所有的微博变成词袋 一条微博形成一条向量,数量代表出现的次数 使用TF-IDF计算词的重要性 选取主要的重要的词进行KMeans聚类 筛选出的N个次就能很好的代表当前类的主旨思想,可以给与到网络营销部分 代码 package com.test import scala.collect 阅读全文