上一页 1 2 3 4 5 6 7 8 ··· 10 下一页
  2021年5月15日
摘要: 码云: https://gitee.com/Xiaokeworksveryhard/big-data/tree/master/%E6%80%BB%E7%BB%93/spark%E8%B0%83%E4%BC%98 combineBykey压缩图 stage和job管道流程图 task任务详情图 阅读全文
posted @ 2021-05-15 13:49 陕西小楞娃 阅读(38) 评论(0) 推荐(0) 编辑
  2021年5月4日
摘要: 导入 本地文件导入到Hive表CREATE TABLE testA ( id INT, name string, area string ) PARTITIONED BY (create_time string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' 阅读全文
posted @ 2021-05-04 20:44 陕西小楞娃 阅读(112) 评论(0) 推荐(0) 编辑
  2021年4月29日
摘要: 1. 将原数据导入到hive表中 // 用户有三个数据文件 1. applist.txt 商品词表: 2. sample.txt 正负例样本表() 3. userdownload.txt 用户下载历史软件 //创建表 应用词表: CREATE EXTERNAL TABLE IF NOT EXISTS 阅读全文
posted @ 2021-04-29 22:51 陕西小楞娃 阅读(172) 评论(0) 推荐(0) 编辑
  2021年4月24日
摘要: DBScan算法-待补充 阅读全文
posted @ 2021-04-24 14:38 陕西小楞娃 阅读(16) 评论(0) 推荐(0) 编辑
  2021年4月11日
摘要: 代码: package com.test import org.apache.spark.SparkConf import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg. 阅读全文
posted @ 2021-04-11 14:23 陕西小楞娃 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 思路 研究特征 所有的微博变成词袋 一条微博形成一条向量,数量代表出现的次数 使用TF-IDF计算词的重要性 选取主要的重要的词进行KMeans聚类 筛选出的N个次就能很好的代表当前类的主旨思想,可以给与到网络营销部分 代码 package com.test import scala.collect 阅读全文
posted @ 2021-04-11 12:51 陕西小楞娃 阅读(78) 评论(0) 推荐(0) 编辑
  2021年4月5日
摘要: TF-IDF算法 推导过程 字词的重要性随着它在文件中出现的次数(TF)成正比增加 但同时会随着它在语料库中出现的频率(IDF)成反比下降 阅读全文
posted @ 2021-04-05 15:14 陕西小楞娃 阅读(68) 评论(0) 推荐(0) 编辑
  2021年4月4日
摘要: 逻辑: 代码 import os from com.test.my_test03 import * # 将每一个文件的内容拼接成一行 def img2vector(fileName): returnVect = np.zeros((1, 1024)) file = open(fileName) fo 阅读全文
posted @ 2021-04-04 23:35 陕西小楞娃 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 线性回归算法是一种有监督的算法。 聚类是一种无监督的机器学习任务,他可以自动将数据划分成类cluster.因此聚类分组不需要提前被告知所划分的组应该是什么样的。因为我们针织可能都不知道我们在寻找什么,所以聚类是用于知识发现而不是预测 KMeans聚类的原理以及聚类流程 随机找K个样本(中心点) 计算 阅读全文
posted @ 2021-04-04 20:11 陕西小楞娃 阅读(168) 评论(0) 推荐(0) 编辑
  2021年4月3日
摘要: KNN思想 如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个级别,则该样本也属于这个级别 少数服从多数的原则 实现KNN算法方式 计算要预测的样本与空间中所有样本的距离 取出与当前样本距离最近的K个样本 统计这个K个样本中,大部分属于哪一个类别 大部分属于哪一个类别, 那么这个就可以预 阅读全文
posted @ 2021-04-03 17:15 陕西小楞娃 阅读(83) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 10 下一页