随笔分类 - Machine Learning
学习机器学习
摘要:在推荐中,多样性并不是目的,而是一种提高用户粘度或是惊喜度的手段。记得在17年的时候在公司做的一个新闻文本摘要项目(那时候没有用到深度学习中的生成式方法是因为:一是没有gpu机器;二是样本不够。而且深度学习的这种生成式方法有时候真的不是太准,即生成的摘要有时候是不通顺的或是不知道説啥,这个还需要后续
阅读全文
摘要:融合了偏置LFM以及用户的历史评分行为,结合了邻域和LFM。理论及python实现见https://www.cnblogs.com/little-horse/p/12499671.html。 以下java简单实现,完整程序https://github.com/jiangnanboy/RecomSys
阅读全文
摘要:BiasLFM(bias latent factor model)带偏置项的隐语义推荐模型,加入三个偏置项(所有评分的平均,用户偏置项表示用户的评分习惯和物品没关系, * 物品偏置项表示物品接受的评分中和用户没关系的因素)矩阵分解,训练得到U,I矩阵,以及用户偏置项和物品偏置项 * 对user-it
阅读全文
摘要:在现实情况下,用户的显式反馈严重不足,但一般拥有大量隐式反馈信息。所以在偏置svd基础上增加了用户的隐式反馈信息,该方法融合了用户的显式和隐式信息。 1.预测评分公式为 其中,有全局平均分,user的偏置信息,item的偏置信息,Ni为该用户评价过的所有item集合,从隐式反馈出发,作为用户偏好的补
阅读全文
摘要:LFM预测是通过隐类将user和item联系起来。但在实际情况下,不同用户的评分标准不同,有的偏高,有的偏低。有的系统有些固有属性和user属性以及item属性都无关。因此才有了带偏置信息的biasLFM。 1.预测评分公式为 该式有四项:全局平均分、user的偏置信息、item的偏置信息以及use
阅读全文
摘要:1.ALS用于显示反馈,即有明确评分的数据。对于隐式反馈,可利用加权ALS,对于有确定偏好的item赋于较大权重,对于没有反馈的item,赋于较小权重。 其中,P矩阵维度:N*K;Q矩阵维度:M*K。前者为User在K维潜因子空间的表示;后者为Item在K维潜因子空间的表示。 2.预测评分,或者説近
阅读全文
摘要:1.交替交替最小二乘应该来说是一种优化策略,用来对矩阵进行近似分解 其中,P矩阵维度:N*K;Q矩阵维度:M*K。前者为User在K维潜因子空间的表示;后者为Item在K维潜因子空间的表示。 2.预测评分,或者説近似评分为 3.损失函数为平方误差+L2正则项,其中是真实值。 4.交替迭代 对P,Q随
阅读全文
摘要:1.非负矩阵分解 其中,P矩阵维度:N*K;Q矩阵维度:M*K。前者为User在K维潜因子空间的表示;后者为Item在K维潜因子空间的表示。 其中: 2.预测评分,或者説近似评分为 3.损失函数为平方误差,其中是真实值。 a.加入L2正则项 b.加入L1和L2正则项 4.针对加入L1和L2的loss
阅读全文
摘要:对矩阵R的近似求解: 1. 其中,P矩阵维度:N*K;Q矩阵维度:M*K。前者为User在K维潜因子空间的表示;后者为Item在K维潜因子空间的表示。 2.预测评分,或者説近似评分为: 3. 损失函数为平方误差+L2正则项: ,其中为真实评分。 4.用梯度下降求解: 其中是学习率,是正则化参数。 5
阅读全文
摘要:1.阶跃函数 ,值域{0,1} 2.sigmoid函数 ,值域(0,1) 3.relu函数 ,值域[0,+∞) 4.leaky relu函数 ,值域R 5.tanh函数 ,值域(-1,1) 6.softmax函数 ,值域[0,1] 7.画图程序
阅读全文
摘要:一.smote相关理论 (1). SMOTE是一种对普通过采样(oversampling)的一个改良。普通的过采样会使得训练集中有很多重复的样本。 SMOTE的全称是Synthetic Minority Over-Sampling Technique,译为“人工少数类过采样法”。 SMOTE没有直接
阅读全文
摘要:一. LTR(learning to rank)经常用于搜索排序中,开源工具中比较有名的是微软的ranklib,但是这个好像是单机版的,也有好长时间没有更新了。所以打算想利用lightgbm进行排序,但网上关于lightgbm用于排序的代码很少,关于回归和分类的倒是一堆。这里我将贴上python版的
阅读全文
摘要:一.论文《QuickScorer:a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees》是为了解决LTR模型的预测问题,如果LTR中的LambdaMart在生成模型时产生的树数和叶结点过多,在对样
阅读全文
摘要:sklearn和numpy.linalg.eig使用pca主成分分析降维
阅读全文
摘要:python实现kmeans与kmeans++方法
阅读全文
摘要:使用python实现一个Naive Bayes分类方法,针对没有的属性会导致预测为0的结果,使用平滑方法;另外针对数值型属性假设它满足正态分布,使用正态分布计算数值型属性概率。
阅读全文