2021年4月11日
摘要: 代码: package com.test import org.apache.spark.SparkConf import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg. 阅读全文
posted @ 2021-04-11 14:23 陕西小楞娃 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 思路 研究特征 所有的微博变成词袋 一条微博形成一条向量,数量代表出现的次数 使用TF-IDF计算词的重要性 选取主要的重要的词进行KMeans聚类 筛选出的N个次就能很好的代表当前类的主旨思想,可以给与到网络营销部分 代码 package com.test import scala.collect 阅读全文
posted @ 2021-04-11 12:51 陕西小楞娃 阅读(78) 评论(0) 推荐(0) 编辑