04 2021 档案
推荐系统架构图
摘要:1. 将原数据导入到hive表中 // 用户有三个数据文件 1. applist.txt 商品词表: 2. sample.txt 正负例样本表() 3. userdownload.txt 用户下载历史软件 //创建表 应用词表: CREATE EXTERNAL TABLE IF NOT EXISTS
阅读全文
机器学习-逻辑回归算法
摘要:代码: package com.test import org.apache.spark.SparkConf import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg.
阅读全文
机器学习-微博精准营销
摘要:思路 研究特征 所有的微博变成词袋 一条微博形成一条向量,数量代表出现的次数 使用TF-IDF计算词的重要性 选取主要的重要的词进行KMeans聚类 筛选出的N个次就能很好的代表当前类的主旨思想,可以给与到网络营销部分 代码 package com.test import scala.collect
阅读全文
机器学习-TF-IDF算法
摘要:TF-IDF算法 推导过程 字词的重要性随着它在文件中出现的次数(TF)成正比增加 但同时会随着它在语料库中出现的频率(IDF)成反比下降
阅读全文
机器学习-KNN识别手写数字
摘要:逻辑: 代码 import os from com.test.my_test03 import * # 将每一个文件的内容拼接成一行 def img2vector(fileName): returnVect = np.zeros((1, 1024)) file = open(fileName) fo
阅读全文
机器学习-KMeans算法
摘要:线性回归算法是一种有监督的算法。 聚类是一种无监督的机器学习任务,他可以自动将数据划分成类cluster.因此聚类分组不需要提前被告知所划分的组应该是什么样的。因为我们针织可能都不知道我们在寻找什么,所以聚类是用于知识发现而不是预测 KMeans聚类的原理以及聚类流程 随机找K个样本(中心点) 计算
阅读全文
机器学习-KNN算法
摘要:KNN思想 如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个级别,则该样本也属于这个级别 少数服从多数的原则 实现KNN算法方式 计算要预测的样本与空间中所有样本的距离 取出与当前样本距离最近的K个样本 统计这个K个样本中,大部分属于哪一个类别 大部分属于哪一个类别, 那么这个就可以预
阅读全文
机器学习-贝叶斯算法
摘要:手动推导 代码: from sklearn.naive_bayes import MultinomialNB from sklearn.feature_extraction.text import CountVectorizer if __name__ == '__main__': # 读取文本构建
阅读全文
机器学习-线性回归算法
摘要:三张手写推导过程 问:为什么不是求点到直线的垂直举例? 垂直距离会缩小误差,取y轴上的距离会放大误差,提高精度 不好计算 线性回归学习套路 随机产生w参数 把w参数与样本数据代入到误差函数中,求解误差值 误差值与用户指定的误差阙值比较 如果大于用户指定的误差阙值,继续调整w参数(2/3/4步骤) 如
阅读全文
机器学习-科普(-)
摘要:经验 + 思维 = 规律 数据 + 算法 = 模型 怎么让规律更准? 1.提高数据量和算法 2.海量数据 3.牛逼算法 数据量决定了模型的高度,算法只是逼近这个高度,大数据是机器学习的基础
阅读全文
大数据总结
摘要:学习过得技术 HDFS YARN MR HIVE HBASE SPARK SPARK(sparkCore、sparkSql、sparkStreaming) HDFS 数据库管理、 存磁盘 Ha模式(在zookeeper之上) 联邦机制(把大象装进冰箱) split切片 Hbase 列式数据库 半结构
阅读全文
浙公网安备 33010602011771号