随笔档案「2021年4月」 - 陕西小楞娃

推荐系统架构图

摘要：1. 将原数据导入到hive表中 // 用户有三个数据文件 1. applist.txt 商品词表： 2. sample.txt 正负例样本表() 3. userdownload.txt 用户下载历史软件 //创建表应用词表： CREATE EXTERNAL TABLE IF NOT EXISTS 阅读全文

posted @ 2021-04-29 22:51 陕西小楞娃阅读(196) 评论(0) 推荐(0)

DBScan算法

摘要：DBScan算法-待补充阅读全文

posted @ 2021-04-24 14:38 陕西小楞娃阅读(19) 评论(0) 推荐(0)

机器学习-逻辑回归算法

摘要：代码： package com.test import org.apache.spark.SparkConf import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.linalg. 阅读全文

posted @ 2021-04-11 14:23 陕西小楞娃阅读(142) 评论(0) 推荐(0)

机器学习-微博精准营销

摘要：思路研究特征所有的微博变成词袋一条微博形成一条向量，数量代表出现的次数使用TF-IDF计算词的重要性选取主要的重要的词进行KMeans聚类筛选出的N个次就能很好的代表当前类的主旨思想，可以给与到网络营销部分代码 package com.test import scala.collect 阅读全文

posted @ 2021-04-11 12:51 陕西小楞娃阅读(94) 评论(0) 推荐(0)

机器学习-TF-IDF算法

摘要：TF-IDF算法推导过程字词的重要性随着它在文件中出现的次数（TF）成正比增加但同时会随着它在语料库中出现的频率（IDF）成反比下降阅读全文

posted @ 2021-04-05 15:14 陕西小楞娃阅读(98) 评论(0) 推荐(0)

机器学习-KNN识别手写数字

摘要：逻辑：代码 import os from com.test.my_test03 import * # 将每一个文件的内容拼接成一行 def img2vector(fileName): returnVect = np.zeros((1, 1024)) file = open(fileName) fo 阅读全文

posted @ 2021-04-04 23:35 陕西小楞娃阅读(123) 评论(0) 推荐(0)

机器学习-KMeans算法

摘要：线性回归算法是一种有监督的算法。聚类是一种无监督的机器学习任务，他可以自动将数据划分成类cluster.因此聚类分组不需要提前被告知所划分的组应该是什么样的。因为我们针织可能都不知道我们在寻找什么，所以聚类是用于知识发现而不是预测 KMeans聚类的原理以及聚类流程随机找K个样本(中心点) 计算阅读全文

posted @ 2021-04-04 20:11 陕西小楞娃阅读(210) 评论(0) 推荐(0)

机器学习-KNN算法

摘要：KNN思想如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个级别，则该样本也属于这个级别少数服从多数的原则实现KNN算法方式计算要预测的样本与空间中所有样本的距离取出与当前样本距离最近的K个样本统计这个K个样本中，大部分属于哪一个类别大部分属于哪一个类别，那么这个就可以预阅读全文

posted @ 2021-04-03 17:15 陕西小楞娃阅读(112) 评论(0) 推荐(0)

机器学习-贝叶斯算法

摘要：手动推导代码： from sklearn.naive_bayes import MultinomialNB from sklearn.feature_extraction.text import CountVectorizer if __name__ == '__main__': # 读取文本构建阅读全文

posted @ 2021-04-03 15:50 陕西小楞娃阅读(73) 评论(0) 推荐(0)

机器学习-线性回归算法

摘要：三张手写推导过程问：为什么不是求点到直线的垂直举例？垂直距离会缩小误差，取y轴上的距离会放大误差，提高精度不好计算线性回归学习套路随机产生w参数把w参数与样本数据代入到误差函数中，求解误差值误差值与用户指定的误差阙值比较如果大于用户指定的误差阙值，继续调整w参数(2/3/4步骤) 如阅读全文

posted @ 2021-04-03 15:46 陕西小楞娃阅读(91) 评论(0) 推荐(0)

机器学习-科普(-)

摘要：经验 + 思维 = 规律数据 + 算法 = 模型怎么让规律更准？ 1.提高数据量和算法 2.海量数据 3.牛逼算法数据量决定了模型的高度，算法只是逼近这个高度，大数据是机器学习的基础阅读全文

posted @ 2021-04-03 15:03 陕西小楞娃阅读(56) 评论(0) 推荐(0)

大数据总结

摘要：学习过得技术 HDFS YARN MR HIVE HBASE SPARK SPARK(sparkCore、sparkSql、sparkStreaming) HDFS 数据库管理、存磁盘 Ha模式(在zookeeper之上) 联邦机制(把大象装进冰箱) split切片 Hbase 列式数据库半结构阅读全文

posted @ 2021-04-03 14:57 陕西小楞娃阅读(76) 评论(0) 推荐(0)