摘要:
码云: https://gitee.com/Xiaokeworksveryhard/big-data/tree/master/%E6%80%BB%E7%BB%93/spark%E8%B0%83%E4%BC%98 combineBykey压缩图 stage和job管道流程图 task任务详情图 阅读全文
摘要:
导入 本地文件导入到Hive表CREATE TABLE testA ( id INT, name string, area string ) PARTITIONED BY (create_time string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' 阅读全文
摘要:
1. 将原数据导入到hive表中 // 用户有三个数据文件 1. applist.txt 商品词表: 2. sample.txt 正负例样本表() 3. userdownload.txt 用户下载历史软件 //创建表 应用词表: CREATE EXTERNAL TABLE IF NOT EXISTS 阅读全文
摘要:
代码: package com.test import org.apache.spark.SparkConf import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg. 阅读全文
摘要:
思路 研究特征 所有的微博变成词袋 一条微博形成一条向量,数量代表出现的次数 使用TF-IDF计算词的重要性 选取主要的重要的词进行KMeans聚类 筛选出的N个次就能很好的代表当前类的主旨思想,可以给与到网络营销部分 代码 package com.test import scala.collect 阅读全文
摘要:
TF-IDF算法 推导过程 字词的重要性随着它在文件中出现的次数(TF)成正比增加 但同时会随着它在语料库中出现的频率(IDF)成反比下降 阅读全文
摘要:
逻辑: 代码 import os from com.test.my_test03 import * # 将每一个文件的内容拼接成一行 def img2vector(fileName): returnVect = np.zeros((1, 1024)) file = open(fileName) fo 阅读全文
摘要:
线性回归算法是一种有监督的算法。 聚类是一种无监督的机器学习任务,他可以自动将数据划分成类cluster.因此聚类分组不需要提前被告知所划分的组应该是什么样的。因为我们针织可能都不知道我们在寻找什么,所以聚类是用于知识发现而不是预测 KMeans聚类的原理以及聚类流程 随机找K个样本(中心点) 计算 阅读全文
摘要:
KNN思想 如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个级别,则该样本也属于这个级别 少数服从多数的原则 实现KNN算法方式 计算要预测的样本与空间中所有样本的距离 取出与当前样本距离最近的K个样本 统计这个K个样本中,大部分属于哪一个类别 大部分属于哪一个类别, 那么这个就可以预 阅读全文