2020 年 3月随笔档案 - 石头木

处理不平衡数据的策略

摘要：在机器学习中，我们在使用模型训练数据时，时常会遇到一个问题，那就是数据不平衡，而且可能是极其不平衡。比如电商中的购买与否，金融欺诈等这种二分类中，往往数据不仅稀疏且还极不平衡，可能其中某一类数据过多。很多模型对于处理这种不平衡数据来説是非常敏感的，往往造成效果不好。那么在进行模型训练前，我们会做阅读全文

posted @ 2020-03-21 22:56 石头木阅读(380) 评论(0) 推荐(0) 编辑

记录一下ssh，nfs安装步骤

摘要：一．安装步骤 1.假设已经安装了linux、nvidia驱动、cuda、cudnn 2.节点之间互相ping通 3.所有节点之间拥有相同的用户名 4.节点之间无密码ssh登录 5.安装mpi，nccl2 6.共享文件系统nfs 7.每个节点拥有一样的环境，数据和脚本要放在主nfs中，其它节点挂靠二阅读全文

posted @ 2020-03-21 13:24 石头木阅读(216) 评论(0) 推荐(0) 编辑

用户偏好的回归预测推荐

摘要：1.概述传统的user协同，先是找到topk相似user，再利用打分公式预测目标用户未有过行为item的评分，基于这个评分从大到小输出推荐。本次的回归推荐方法跟user协同也是大同小异，最主要的不同是回归推荐是学习用户的特征偏好，所以本方法用到了评分数据以及item的特征分布。这个item特征分布阅读全文

posted @ 2020-03-16 23:38 石头木阅读(735) 评论(0) 推荐(0) 编辑

SVD++分解

摘要：在现实情况下，用户的显式反馈严重不足，但一般拥有大量隐式反馈信息。所以在偏置svd基础上增加了用户的隐式反馈信息，该方法融合了用户的显式和隐式信息。 1.预测评分公式为其中，有全局平均分，user的偏置信息，item的偏置信息，Ni为该用户评价过的所有item集合，从隐式反馈出发，作为用户偏好的补阅读全文

posted @ 2020-03-15 20:09 石头木阅读(699) 评论(0) 推荐(0) 编辑

BiasLFM分解

摘要：LFM预测是通过隐类将user和item联系起来。但在实际情况下，不同用户的评分标准不同，有的偏高，有的偏低。有的系统有些固有属性和user属性以及item属性都无关。因此才有了带偏置信息的biasLFM。 1.预测评分公式为该式有四项：全局平均分、user的偏置信息、item的偏置信息以及use 阅读全文

posted @ 2020-03-15 15:55 石头木阅读(385) 评论(0) 推荐(0) 编辑

WALS分解

摘要：1.ALS用于显示反馈，即有明确评分的数据。对于隐式反馈，可利用加权ALS，对于有确定偏好的item赋于较大权重，对于没有反馈的item，赋于较小权重。其中，P矩阵维度：N*K；Q矩阵维度：M*K。前者为User在K维潜因子空间的表示；后者为Item在K维潜因子空间的表示。 2.预测评分，或者説近阅读全文

posted @ 2020-03-15 10:49 石头木阅读(616) 评论(0) 推荐(0) 编辑

ALS分解

摘要：1.交替交替最小二乘应该来说是一种优化策略，用来对矩阵进行近似分解其中，P矩阵维度：N*K；Q矩阵维度：M*K。前者为User在K维潜因子空间的表示；后者为Item在K维潜因子空间的表示。 2.预测评分，或者説近似评分为 3.损失函数为平方误差+L2正则项，其中是真实值。 4.交替迭代对P，Q随阅读全文

posted @ 2020-03-14 23:26 石头木阅读(374) 评论(1) 推荐(0) 编辑

NMF分解

摘要：1.非负矩阵分解其中，P矩阵维度：N*K；Q矩阵维度：M*K。前者为User在K维潜因子空间的表示；后者为Item在K维潜因子空间的表示。其中： 2.预测评分，或者説近似评分为 3.损失函数为平方误差，其中是真实值。 a.加入L2正则项 b.加入L1和L2正则项 4.针对加入L1和L2的loss 阅读全文

posted @ 2020-03-14 22:36 石头木阅读(576) 评论(0) 推荐(0) 编辑

LFM矩阵分解

摘要：对矩阵R的近似求解： 1. 其中，P矩阵维度：N*K；Q矩阵维度：M*K。前者为User在K维潜因子空间的表示；后者为Item在K维潜因子空间的表示。 2.预测评分，或者説近似评分为： 3. 损失函数为平方误差+L2正则项：，其中为真实评分。 4.用梯度下降求解：其中是学习率，是正则化参数。 5 阅读全文

posted @ 2020-03-13 22:42 石头木阅读(629) 评论(0) 推荐(0) 编辑

TopN热门新闻计算

摘要：采用flink实时计算topn热门新闻，主程序参考自http://wuchong.me/blog/2018/11/07/use-flink-calculate-hot-items/，稍微整理了一下程序，数据可以从参考链接中下载。 import org.apache.flink.api.common. 阅读全文

posted @ 2020-03-11 18:12 石头木阅读(347) 评论(0) 推荐(0) 编辑

关于推荐

摘要：一．常见推荐模型 (一).简述传统的基于内容的推荐算法，这种算法有效利用了推荐内容自身的特点，如商品的类别标签、新闻的分类标签、音乐的流派标签等，结合用户的历史行为，进行简单有效的推荐，这种方法需要提取商品的标签和用户的标签作为内容推荐的一种依据。推荐系统的一个主流分支是基于协同过滤的推荐算法，阅读全文

posted @ 2020-03-09 11:43 石头木阅读(346) 评论(0) 推荐(0) 编辑

商品排序简要概述

摘要：一．排序目标将暴光多的购买少的商品下沉将高质量的商品尽量靠前提高订单转化率等如下图电商中，在商品名栏中输入商品名，点击查询，系统将把最相关物品先前排。二．排序的演变 1.文本匹配阶段 2.人工加权阶段打分公式： w1*score1+w2*score2+w3*score3+... = to 阅读全文

posted @ 2020-03-08 16:06 石头木阅读(1406) 评论(0) 推荐(0) 编辑

石头木

https://jiangnanboy.github.io

03 2020 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论