Fork me on GitHub

03 2020 档案

摘要:在机器学习中,我们在使用模型训练数据时,时常会遇到一个问题,那就是数据不平衡,而且可能是极其不平衡。比如电商中的购买与否,金融欺诈等这种二分类中,往往数 据不仅稀疏且还极不平衡,可能其中某一类数据过多。很多模型对于处理这种不平衡数据来説是非常敏感的,往往造成效果不好。 那么在进行模型训练前,我们会做 阅读全文
posted @ 2020-03-21 22:56 石头木 阅读(380) 评论(0) 推荐(0) 编辑
摘要:一.安装步骤 1.假设已经安装了linux、nvidia驱动、cuda、cudnn 2.节点之间互相ping通 3.所有节点之间拥有相同的用户名 4.节点之间无密码ssh登录 5.安装mpi,nccl2 6.共享文件系统nfs 7.每个节点拥有一样的环境,数据和脚本要放在主nfs中,其它节点挂靠 二 阅读全文
posted @ 2020-03-21 13:24 石头木 阅读(216) 评论(0) 推荐(0) 编辑
摘要:1.概述 传统的user协同,先是找到topk相似user,再利用打分公式预测目标用户未有过行为item的评分,基于这个评分从大到小输出推荐。本次的回归推荐方法跟user协同也是大同小异,最主要的不同是回归推荐是学习用户的特征偏好,所以本方法用到了评分数据以及item的特征分布。这个item特征分布 阅读全文
posted @ 2020-03-16 23:38 石头木 阅读(735) 评论(0) 推荐(0) 编辑
摘要:在现实情况下,用户的显式反馈严重不足,但一般拥有大量隐式反馈信息。所以在偏置svd基础上增加了用户的隐式反馈信息,该方法融合了用户的显式和隐式信息。 1.预测评分公式为 其中,有全局平均分,user的偏置信息,item的偏置信息,Ni为该用户评价过的所有item集合,从隐式反馈出发,作为用户偏好的补 阅读全文
posted @ 2020-03-15 20:09 石头木 阅读(699) 评论(0) 推荐(0) 编辑
摘要:LFM预测是通过隐类将user和item联系起来。但在实际情况下,不同用户的评分标准不同,有的偏高,有的偏低。有的系统有些固有属性和user属性以及item属性都无关。因此才有了带偏置信息的biasLFM。 1.预测评分公式为 该式有四项:全局平均分、user的偏置信息、item的偏置信息以及use 阅读全文
posted @ 2020-03-15 15:55 石头木 阅读(385) 评论(0) 推荐(0) 编辑
摘要:1.ALS用于显示反馈,即有明确评分的数据。对于隐式反馈,可利用加权ALS,对于有确定偏好的item赋于较大权重,对于没有反馈的item,赋于较小权重。 其中,P矩阵维度:N*K;Q矩阵维度:M*K。前者为User在K维潜因子空间的表示;后者为Item在K维潜因子空间的表示。 2.预测评分,或者説近 阅读全文
posted @ 2020-03-15 10:49 石头木 阅读(616) 评论(0) 推荐(0) 编辑
摘要:1.交替交替最小二乘应该来说是一种优化策略,用来对矩阵进行近似分解 其中,P矩阵维度:N*K;Q矩阵维度:M*K。前者为User在K维潜因子空间的表示;后者为Item在K维潜因子空间的表示。 2.预测评分,或者説近似评分为 3.损失函数为平方误差+L2正则项,其中是真实值。 4.交替迭代 对P,Q随 阅读全文
posted @ 2020-03-14 23:26 石头木 阅读(374) 评论(1) 推荐(0) 编辑
摘要:1.非负矩阵分解 其中,P矩阵维度:N*K;Q矩阵维度:M*K。前者为User在K维潜因子空间的表示;后者为Item在K维潜因子空间的表示。 其中: 2.预测评分,或者説近似评分为 3.损失函数为平方误差,其中是真实值。 a.加入L2正则项 b.加入L1和L2正则项 4.针对加入L1和L2的loss 阅读全文
posted @ 2020-03-14 22:36 石头木 阅读(576) 评论(0) 推荐(0) 编辑
摘要:对矩阵R的近似求解: 1. 其中,P矩阵维度:N*K;Q矩阵维度:M*K。前者为User在K维潜因子空间的表示;后者为Item在K维潜因子空间的表示。 2.预测评分,或者説近似评分为: 3. 损失函数为平方误差+L2正则项: ,其中为真实评分。 4.用梯度下降求解: 其中是学习率,是正则化参数。 5 阅读全文
posted @ 2020-03-13 22:42 石头木 阅读(629) 评论(0) 推荐(0) 编辑
摘要:采用flink实时计算topn热门新闻,主程序参考自http://wuchong.me/blog/2018/11/07/use-flink-calculate-hot-items/,稍微整理了一下程序,数据可以从参考链接中下载。 import org.apache.flink.api.common. 阅读全文
posted @ 2020-03-11 18:12 石头木 阅读(347) 评论(0) 推荐(0) 编辑
摘要:一.常见推荐模型 (一).简述 传统的基于内容的推荐算法,这种算法有效利用了推荐内容自身的特点,如商品的类别标签、新闻的分类标签、音乐的流派标签等,结合用户的历史行为,进行简单有效的推荐,这种方法需要提取商品的标签和用户的标签作为内容推荐的一种依据。 推荐系统的一个主流分支是基于协同过滤的推荐算法, 阅读全文
posted @ 2020-03-09 11:43 石头木 阅读(346) 评论(0) 推荐(0) 编辑
摘要:一.排序目标 将暴光多的购买少的商品下沉 将高质量的商品尽量靠前 提高订单转化率等 如下图电商中,在商品名栏中输入商品名,点击查询,系统将把最相关物品先前排。 二.排序的演变 1.文本匹配阶段 2.人工加权阶段 打分公式: w1*score1+w2*score2+w3*score3+... = to 阅读全文
posted @ 2020-03-08 16:06 石头木 阅读(1406) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示