陕西小楞娃 - 博客园

2021年5月15日

摘要：码云： https://gitee.com/Xiaokeworksveryhard/big-data/tree/master/%E6%80%BB%E7%BB%93/spark%E8%B0%83%E4%BC%98 combineBykey压缩图 stage和job管道流程图 task任务详情图阅读全文

posted @ 2021-05-15 13:49 陕西小楞娃阅读(38) 评论(0) 推荐(0) 编辑

2021年5月4日

Hive的导入导出方式汇总

摘要：导入本地文件导入到Hive表CREATE TABLE testA ( id INT, name string, area string ) PARTITIONED BY (create_time string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' 阅读全文

posted @ 2021-05-04 20:44 陕西小楞娃阅读(112) 评论(0) 推荐(0) 编辑

2021年4月29日

推荐系统架构图

摘要： 1. 将原数据导入到hive表中 // 用户有三个数据文件 1. applist.txt 商品词表： 2. sample.txt 正负例样本表() 3. userdownload.txt 用户下载历史软件 //创建表应用词表： CREATE EXTERNAL TABLE IF NOT EXISTS 阅读全文

posted @ 2021-04-29 22:51 陕西小楞娃阅读(172) 评论(0) 推荐(0) 编辑

2021年4月24日

DBScan算法

摘要： DBScan算法-待补充阅读全文

posted @ 2021-04-24 14:38 陕西小楞娃阅读(16) 评论(0) 推荐(0) 编辑

2021年4月11日

机器学习-逻辑回归算法

摘要：代码： package com.test import org.apache.spark.SparkConf import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg. 阅读全文

posted @ 2021-04-11 14:23 陕西小楞娃阅读(94) 评论(0) 推荐(0) 编辑

机器学习-微博精准营销

摘要：思路研究特征所有的微博变成词袋一条微博形成一条向量，数量代表出现的次数使用TF-IDF计算词的重要性选取主要的重要的词进行KMeans聚类筛选出的N个次就能很好的代表当前类的主旨思想，可以给与到网络营销部分代码 package com.test import scala.collect 阅读全文

posted @ 2021-04-11 12:51 陕西小楞娃阅读(78) 评论(0) 推荐(0) 编辑

2021年4月5日

机器学习-TF-IDF算法

摘要： TF-IDF算法推导过程字词的重要性随着它在文件中出现的次数（TF）成正比增加但同时会随着它在语料库中出现的频率（IDF）成反比下降阅读全文

posted @ 2021-04-05 15:14 陕西小楞娃阅读(68) 评论(0) 推荐(0) 编辑

2021年4月4日

机器学习-KNN识别手写数字

摘要：逻辑：代码 import os from com.test.my_test03 import * # 将每一个文件的内容拼接成一行 def img2vector(fileName): returnVect = np.zeros((1, 1024)) file = open(fileName) fo 阅读全文

posted @ 2021-04-04 23:35 陕西小楞娃阅读(102) 评论(0) 推荐(0) 编辑

机器学习-KMeans算法

摘要：线性回归算法是一种有监督的算法。聚类是一种无监督的机器学习任务，他可以自动将数据划分成类cluster.因此聚类分组不需要提前被告知所划分的组应该是什么样的。因为我们针织可能都不知道我们在寻找什么，所以聚类是用于知识发现而不是预测 KMeans聚类的原理以及聚类流程随机找K个样本(中心点) 计算阅读全文

posted @ 2021-04-04 20:11 陕西小楞娃阅读(168) 评论(0) 推荐(0) 编辑

2021年4月3日

机器学习-KNN算法

摘要： KNN思想如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个级别，则该样本也属于这个级别少数服从多数的原则实现KNN算法方式计算要预测的样本与空间中所有样本的距离取出与当前样本距离最近的K个样本统计这个K个样本中，大部分属于哪一个类别大部分属于哪一个类别，那么这个就可以预阅读全文

posted @ 2021-04-03 17:15 陕西小楞娃阅读(83) 评论(0) 推荐(0) 编辑