摘要:
本文从互联网收集并整理了推荐系统的架构,其中包括一些大公司的推荐系统框架(数据流存储、计算、模型应用),可以参考这些资料,取长补短,最后根据自己的业务需求,技术选型来设计相应的框架。后续持续更新并收集。。。 图1 界面UI那一块包含3块东西:1) 通过一定方式展示推荐物品(物品标题、缩略图、简介等);2) 给的推荐理由;3) 数据反馈改进个性化推荐;关于用户数据的存放地方:1)数据库/缓存用来实时取数据;2) hdfs文件上面; 抽象出来的三种推荐方式 图2 图3 图3中,推荐引擎的构建来源于不同的数据源(也就是用户的特征有很多种类,例如统计的、行为的、主题的)+不同的... 阅读全文
摘要:
本篇主要做的是一个流失预警模型实时查询的一个测试,需求描述:用户名单请求判断是否流失,秒级内返回判断结果。操作场景如下: 流失预警模型,预测用户是否在未来一段时间内流失(牵涉到流失定义,用户活跃度定义,用户行为时间定义等)建立,用到了用户最近行为特征、行为趋势特征等,最后预测是否流失(1流失,0留存)。在本文的测试之前已经把模型建好。实验条件:ubuntu13.04 32位,mysql,mysqldb,scikit-learn1.4安装Mysqlsudo apt-get install mysql-client-core-5.5sudo apt-get install mysql-server 阅读全文
摘要:
以下内容是转至盛大创新研究院官方博客的一篇文章http://in.sdo.com/?p=1707,文中几乎涵盖了当今主流的推荐系统开源软件,我把全文都贴过来了,不过与原文不同的是我把有些已经停止更新/或者更新很慢的都往后面排了。另外也写写自己的一些使用总结。 原文开始: 收集和整理了目前互联网上能找到的开源推荐系统,并附上了个人的一些简单点评(未必全面准确),这个列表是目前为止比较全面的了,希望对大家了解掌握推荐系统有帮助(文/陈运文)SVDFeature由上海交大的同学开发,采用C++语言,代码质量很高。去年我们参加KDD竞赛时用过,很好很方便,而且出自咱们国人之手,所以置顶推荐!项目地址. 阅读全文
摘要:
整理归纳一下《推荐系统实践》和《推荐系统导论》两本书的知识点,文中排版格式可能会有点乱,如有问题请指正。OK,闲话不说,先上2张图 对推荐系统的建模数据进行分析,代表型数据:1)无上下文的隐形反馈数据;2) 无上下文的显性反馈数据;3) 有上下文的隐形反馈数据;4)有小上下文的显性反馈数据,其中显性的反馈数据就是用户对物品的评分,而隐形的就是用户对物品的浏览,时长等数据(不同的领域,用户对物品的行为种类不一样),像我之前的做的都全是用有上下文的隐形反馈,都是通过点击、登陆、时长归纳出来的用户对物品的评分。 有了用户数据以后,可以做一些行为的分析:1) 用户活跃度和物品流行度的分布(用户... 阅读全文
摘要:
Slope One 算法 是一种基于评分的预测算法, 本质上也是一种基于项目的算法。与一般的基于项目的算法不同, 该算法不计算项目之间的相似度, 而是用一种简单的线性回归模型进行预测(可以扩展) 算法易于实现, 计算速度快, 可扩展性好, 同时对数据稀疏性有较好的适应性。 例如下面表格里有3个用户对4个物品的评分101102103104UserX53.5UserY2542UserZ4.53.514 求物品两两之间的差值平均分: 物品102和101:{(3.5-5)+(5-2)+(3.5-4.5)}/3=0.5/3 物品103跟101:{(4-2)+(1-4.5)}/2=-... 阅读全文
摘要:
在现代商业里面,谁了解用户,谁就占得先机,了解用户往深的讲可以通过熟悉用户的特征。用户特征的分析不仅仅是数据化运营的基础,也是以用户为中心的企业赖以生存及发展的基本条件。在大数据来临的时代后,针对用户特征分析又有了新的需求,也有了更多维度,更多分析技术的选择。下面一章就是本书的作者归纳提炼的一些分析手段跟实战经验。第11章 用户特征分析的典型应用跟技术小窍门第12章 运营效果分析的典型应用跟技术小窍门第13章 漏斗模型跟路径分析 漏斗模型主要分析目是针对运营过程中各个关键环节的转化率、运营效果以及过程,优化转化率低的环节,路径分析通常是针对用户的每一个网络行为进行精细跟踪和记录,在此... 阅读全文
摘要:
第10章 预测响应(分类)模型的应用和技术小窍门 正如上篇文章所说的本书的重点是商业+模型,本章节中关于算法的一些描述我觉得有些不妥,例如介绍决策树(DT)的优缺点的时候,文中指出“如果目标变量是连续型变量,那么决策树就不适用了,最好改成线性回归”,其实DT算法也是可以解决回归问题的,例如互联网广告页面的点击率预测就可以用GBRT(梯度的boosting tree)来预测,再例如文中对比线性回归跟逻辑回归时,说线性模型是目标变量跟自变量呈线性,而logistic regression又不是线性的,这个从算法层面来讲就有点矛盾了,logistic regression其实也是一个线性模型。全.. 阅读全文
摘要:
前段时间,boss推荐,买来看了一下,觉得里面有很多干货,尽管有关怎么建模,如何建模等深入到算法层面的东西讲的比较少,但是该书站在商业化,业务+技术的角度阐释了该如何做数据挖掘,以下我是用思维导图的方式记录了的笔记(直接从云笔记里面copy过来)第三章 常见数据分析模型第四章 数据化运营是跨专业、跨团队的合作第五章 主要谈到新手数据分析师常见的错误观念1,轻视业务;2,技术万能;3,技术尖端;4,机器万能;总的来说要紧密结合业务挖掘有价值的东西。平常思考过程中别把关联关系转化成因果关系第六章 一个完整的挖掘案例流程第七张章 挖掘模型优化跟评价指标第八章 常见数据处理技巧在数据挖掘领域一个很经. 阅读全文