摘要: http://www.cnblogs.com/pzxbc/archive/2012/03/18/2404715.htmlpython的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。 基本接口: pickle.dump(obj, file, [,protocol]) 注解:将对象obj保存到文件file中去。 protocol为序列化使用的协议版本,0:ASCII协议,所序列化的对象使用可打印的ASCII码表示;1:... 阅读全文
posted @ 2014-04-02 22:53 Django's blog 阅读(429) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/zhaoxinfan/article/details/8821419这学期选了一门名叫《web智能与社会计算》的课,老师最后偷懒,最后的课程project作业直接让我们参加百度的一个电影推荐系统算法大赛,然后以在这个比赛中的成绩作为这门课大作业的成绩。不过,最终的结果并不需要百度官方的评估,只需要我们的截图即可(参看百度云平台),例如下面这个:上面最重要的就是RMSE的数值,数值越小代表偏差越小,百度排行榜就是按值从小到大来排列的,这些人使用的可能是比SVD更好的算法,即使这样达到一定范围后再想进步就很难了,估计不会有人低于0.6这个值。言归正传,下面 阅读全文
posted @ 2014-04-02 16:02 Django's blog 阅读(1617) 评论(0) 推荐(0) 编辑
摘要: http://ling0322.info/2013/05/07/recommander-system.html这个学期Web智能与社会计算的大作业就是完成一个推荐系统参加百度电影推荐算法大赛,成绩按照评测数据给分。老师介绍了N种方法包括基于内容的、以及协同过滤等等,不过他强烈建议使用矩阵奇异值分解的办法来做。也正因为是这个原因,我们一共8组其中6组的模型都是SVD。这个比赛就是提供给你用户对电影的评分、电影的TAG、用户的社会关系(好友)、用户的观看纪录信息。其中用户对电影的评分满分是5分,大约8k用户、1w电影,然后根据以上的信息预测用户对某些电影的评分。然后评测结果就是跟用户实际评分的RM 阅读全文
posted @ 2014-04-02 15:57 Django's blog 阅读(1602) 评论(0) 推荐(0) 编辑
摘要: http://www.janscon.com/multiarray/rs_used_svd.html【声明】本文主要参考自论文《A SINGULAR VALUE DECOMPOSITION APPROACH FOR. RECOMMENDATION SYSTEMS》1、简介该文章中提出两个创新点,首先先将User与Item分类,然后根据分类将矩阵分成相应的“子矩阵”,对这些矩阵进行相应的SVD不仅会提高准确率还会降低计算复杂度;另外一个创新点是在于使用三维矩阵,然后通过矩阵分解成、与子矩阵后再进行SVD分析,这篇文章的结果表示引入tags会提高推荐性能。2、用户评分矩阵评分矩阵3、进行奇异值分解 阅读全文
posted @ 2014-04-02 15:45 Django's blog 阅读(1042) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/biyeymyhjob/archive/2012/07/18/2595410.html转自别处有很多与此类似的文章也不知道谁是原创 因原文由少于错误 所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白 并且有些复杂,后面的运行流程依据前面的得出的算子进行分类)初步接触谓LR分类器(Logistic Regression Classifier),并没有什么神秘的。在分类的情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm.当测试样本集中的测试数据来到时,这一组权值按照与测试数据线性加和的方式,求出一个z值:z = w 阅读全文
posted @ 2014-04-02 15:39 Django's blog 阅读(786) 评论(0) 推荐(0) 编辑
摘要: http://in.sdo.com/?p=11原文链接:Netflix recommendations: beyond the 5 stars(Part 1),(Part 2)原文作者:Xavier Amatriainand Justin Basilico前言Nexflix是一家提供在线视频流媒体服务和DVD租赁业务的公司,也是著名的Netflix大奖赛的发起者。如果读者希望进一步了解Netflix,建议读一下和讯上的一篇文章:Netflix:从传统DVD租赁向流媒体华丽转身以及爱范儿上的:Netflix成功的背后:高薪,高标准,高淘汰率,股票,无限制休假,恐惧文化,垃圾便当午餐在这篇博文中, 阅读全文
posted @ 2014-04-02 15:30 Django's blog 阅读(1077) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/v_july_v/article/details/7577684从决策树学习谈到贝叶斯分类算法、EM、HMM (Machine Learning & Data Mining交流群:8986884)引言 最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列文章以作为自己备试之用 阅读全文
posted @ 2014-04-02 15:16 Django's blog 阅读(856) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘中 决策树算法实现——Bash博客分类:数据挖掘决策树bash非递归实现标准信息熵数据挖掘决策树bash非递归实现标准信息熵一、决策树简介:关于决策树,几乎是数据挖掘分类算法中最先介绍到的。决策树,顾名思义就是用来做决定的树,一个分支就是一个决策过程。每个决策过程中涉及一个数据的属性,而且只涉及一个。然后递归地,贪心地直到满足决策条件(即可以得到明确的决策结果)。决策树的实现首先要有一些先验(已经知道结果的历史)数据做训练,通过分析训练数据得到每个属性对结果的影响的大小,这里我们通过一种叫做信息增益的理论去描述它,期间也涉及到熵的概念。也可参考文章信息增益与熵.下面我们结合实例说一下决 阅读全文
posted @ 2014-04-02 15:12 Django's blog 阅读(606) 评论(0) 推荐(0) 编辑
摘要: 决策树算法总结参考:《机器学习》Tom版 以及http://blog.csdn.net/v_july_v/article/details/7577684一、简介决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷款风险)。从数据产生决策树的机器学习技术叫做决策树学习, 阅读全文
posted @ 2014-04-02 15:06 Django's blog 阅读(453) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/FengYan/archive/2012/05/06/2480664.html1. SVD简介假如要预测Zero君对一部电影M的评分,而手上只有Zero君对若干部电影的评分和风炎君对若干部电影的评分(包含M的评分)。那么能预测出Zero君对M的评分吗?答案显然是能。最简单的方法就是直接将预测分定为平均分。不过这时的准确度就难说了。本文将介绍一种比这个最简单的方法要准上许多,并且也不算复杂的算法。 SVD(Singular Value Decomposition)的想法是根据已有的评分情况,分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度, 阅读全文
posted @ 2014-04-02 14:16 Django's blog 阅读(290) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/wuyanyi/article/details/7964883参考自:http://www.igvita.com/2007/01/15/svd-recommendation-system-in-ruby/其实说参考也不准确,准确地说应该是半翻译半学习笔记。仔细整理一遍,感觉还是收获很大的。线性代数相关知识:任意一个M*N的矩阵A(M行*N列,M>N),可以被写成三个矩阵的乘机:1.U:(M行M列的列正交矩阵)2.S:(M*N的对角线矩阵,矩阵元素非负)3.V:(N*N的正交矩阵的倒置)即A=U*S*V‘(注意矩阵V需要倒置)直观地说:假设我们有一 阅读全文
posted @ 2014-04-02 14:14 Django's blog 阅读(344) 评论(0) 推荐(0) 编辑
摘要: http://my.oschina.net/wxcchd/blog/139271如何利用用户行为数据?目前应用最广泛的就是使用基于用户行为数据分析的算法进行推荐。基于用户行为数据分析的推荐算法一般被成为协同过滤算法。协同过滤算法有很多种,基于邻域的方法、隐语义模型、基于图的随机游走算法等等,而协同过滤也只是推荐算法中的一类,还有基于人口统计学的推荐、基于内容的推荐等等。实际应用中用到最多的还有机器学习,聚类分类等等貌似在实际中都有应用。由于对机器学习一点也不了解,这里也就不提了,以后会对其进行补充。本文主要整理的是基于邻域的方法,主要包含两种算法:基于用户的协同过滤(userCF)和基于物品的 阅读全文
posted @ 2014-04-02 12:20 Django's blog 阅读(977) 评论(0) 推荐(0) 编辑
摘要: http://www.tuicool.com/articles/6reU7f收集和整理了目前互联网上能找到的和推荐系统相关的开源项目(Open Source Software | Recommendation),罗列如下,希望对本领域感兴趣的朋友有帮助(文/陈运文)SVDFeature由上海交大的同学开发(开发语言C++),代码严谨、质量高,我们参加KDD竞赛时用过,很可靠和方便,而且出自咱们国人之手,所以置顶推荐!项目地址:http://svdfeature.apexlab.org/wiki/Main_PageSVDFeature包含一个很灵活的Matrix Factorization推荐框 阅读全文
posted @ 2014-04-02 12:19 Django's blog 阅读(1083) 评论(0) 推荐(0) 编辑
摘要: 推荐系统中所使用的混合技术介绍http://www.tuicool.com/articles/ruYnAn原文http://www.resyschina.com/2013/10/ensemble-recommendation.html文/陈运文在推荐系统实际运用中,各种混合技术是其中一项极为重要的核心技术。在工程实践中我们发现,混合技术对提升推荐效果、改进推荐系统的性能等都有重要意义,因此本文对该专题进行如下的一些总结和介绍。引言在这个信息爆炸的时代,消费者面临众多选择、未知的领域、过载的信息时,往往无所适从;然而与此同时,内容的生产者(例如商家)也在苦苦寻觅合适的用户,寻找最便捷的渠道,而解 阅读全文
posted @ 2014-04-02 12:15 Django's blog 阅读(626) 评论(0) 推荐(0) 编辑
摘要: 协同过滤算法一、介绍:http://blog.csdn.net/v_july_v/article/details/7184318http://blog.163.com/lnhenrylee@126/blog/static/2414832520123269713813/http://zh.wikipedia.org/wiki/%E5%8D%94%E5%90%8C%E9%81%8E%E6%BF%BE#.E6.9C.AA.E4.BE.86.E7.99.BC.E5.B1.95http://zh.wikipedia.org/wiki/Slope_one基于协同过滤的三个子类:基于用户的推荐(通过共同口味 阅读全文
posted @ 2014-04-02 12:09 Django's blog 阅读(575) 评论(0) 推荐(0) 编辑
摘要: 1,首先使用基于item的协同过滤推荐。2,然后得出每个用户推荐的得分。3,得分>3分的就当成这个用户的推荐Item然后专门计算7月15日-8月15日之间的用户点击行为,把查看、收藏、购物车这3种行为收集起来,如果这3种行为次数较多,那么用户在9月份购买此产品的可能性会很大。已测F1 r感觉上来直接用协同过滤不好,关键是topN,这个N怎么取,取好了效果应该也不错吧?还感觉购物车和收藏可能是大部分噪音的来源,lz要是单纯相加计算的话,不太好吧?阿里内部人士说用LR+协同过滤,当时就蒙了。。。现在想,是不是可以用LR预测某用户下个月是否会买?这个要是能确定F1会不会上升一个档次呢?可惜特征 阅读全文
posted @ 2014-04-02 11:51 Django's blog 阅读(256) 评论(0) 推荐(0) 编辑
摘要: http://bbs.aliyun.com/read/154433.html?spm=5176.7189909.0.0.gzyohy&fpage=2看到主办方之前发的一篇文章里提到,这个购买行为 和 传统的评分过滤问题 还是很不一样的。但为什么亚马逊 会使用 item-cf等协同过滤算法呢?这里用item-cf算法为什么会这么差?难道亚马逊 和天猫上的购买行为 有差别?协同过滤的关键是要知道用户的显性反馈,即评分。这个数据集根本就没有给评分,即便是利用购买来做评分,利用binary rate来做,正负例比例失调,购买带来的信息太少。其他行为作为隐形反馈很难合理的加进SVD++进去。总体 阅读全文
posted @ 2014-04-02 10:58 Django's blog 阅读(369) 评论(0) 推荐(0) 编辑
摘要: http://bbs.aliyun.com/read/153103.html?spm=5176.7189909.0.0.KWGWap一、同为推荐,大不同! 不知道同学们是否经常在天猫购物,但是相信大家一定听过音乐,看过电影,读过新闻和小说。大家在享受各种娱乐信息的时候,正在被网站的后台悄悄地记录着你的信息,分析着你的偏好,然后向你推荐越来越喜欢的内容。整个过程也许你并没有明显的感知,但是你会慢慢上瘾,喜欢上它,比如爱上虾米。这其实都是推荐算法的功劳。现在,你们也有机会用自己的算法让大家爱上购物。但是,音乐推荐、视频推荐、新闻推荐和品牌推荐的不同之处还是要注意的,要去思考的。 不都是推荐么?有什 阅读全文
posted @ 2014-04-02 10:22 Django's blog 阅读(309) 评论(0) 推荐(0) 编辑