数据挖掘及机器学习 - 随笔分类(第18页) - Django's blog

推荐系统开源软件列表

摘要：http://www.tuicool.com/articles/6reU7f收集和整理了目前互联网上能找到的和推荐系统相关的开源项目(Open Source Software | Recommendation)，罗列如下，希望对本领域感兴趣的朋友有帮助（文/陈运文）SVDFeature由上海交大的同学开发（开发语言C++），代码严谨、质量高，我们参加KDD竞赛时用过，很可靠和方便，而且出自咱们国人之手，所以置顶推荐！项目地址：http://svdfeature.apexlab.org/wiki/Main_PageSVDFeature包含一个很灵活的Matrix Factorization推荐框阅读全文

posted @ 2014-04-02 12:19 Django's blog 阅读(1087) 评论(0) 推荐(0) 编辑

推荐系统中所使用的混合技术介绍

摘要：推荐系统中所使用的混合技术介绍http://www.tuicool.com/articles/ruYnAn原文http://www.resyschina.com/2013/10/ensemble-recommendation.html文/陈运文在推荐系统实际运用中，各种混合技术是其中一项极为重要的核心技术。在工程实践中我们发现，混合技术对提升推荐效果、改进推荐系统的性能等都有重要意义，因此本文对该专题进行如下的一些总结和介绍。引言在这个信息爆炸的时代，消费者面临众多选择、未知的领域、过载的信息时，往往无所适从；然而与此同时，内容的生产者（例如商家）也在苦苦寻觅合适的用户，寻找最便捷的渠道，而解阅读全文

posted @ 2014-04-02 12:15 Django's blog 阅读(631) 评论(0) 推荐(0) 编辑

协同过滤算法

摘要：协同过滤算法一、介绍：http://blog.csdn.net/v_july_v/article/details/7184318http://blog.163.com/lnhenrylee@126/blog/static/2414832520123269713813/http://zh.wikipedia.org/wiki/%E5%8D%94%E5%90%8C%E9%81%8E%E6%BF%BE#.E6.9C.AA.E4.BE.86.E7.99.BC.E5.B1.95http://zh.wikipedia.org/wiki/Slope_one基于协同过滤的三个子类：基于用户的推荐(通过共同口味阅读全文

posted @ 2014-04-02 12:09 Django's blog 阅读(583) 评论(0) 推荐(0) 编辑

转：[大数据竞赛]协同过滤在这个问题上是否work

摘要：http://bbs.aliyun.com/read/154433.html?spm=5176.7189909.0.0.gzyohy&fpage=2看到主办方之前发的一篇文章里提到，这个购买行为和传统的评分过滤问题还是很不一样的。但为什么亚马逊会使用 item-cf等协同过滤算法呢？这里用item-cf算法为什么会这么差？难道亚马逊和天猫上的购买行为有差别？协同过滤的关键是要知道用户的显性反馈，即评分。这个数据集根本就没有给评分，即便是利用购买来做评分，利用binary rate来做，正负例比例失调，购买带来的信息太少。其他行为作为隐形反馈很难合理的加进SVD++进去。总体阅读全文

posted @ 2014-04-02 10:58 Django's blog 阅读(371) 评论(0) 推荐(0) 编辑

转：[大数据竞赛]夺冠感言：走进业务，提升对世界的认知能力

摘要：http://bbs.aliyun.com/read/153103.html?spm=5176.7189909.0.0.KWGWap一、同为推荐，大不同！不知道同学们是否经常在天猫购物，但是相信大家一定听过音乐，看过电影，读过新闻和小说。大家在享受各种娱乐信息的时候，正在被网站的后台悄悄地记录着你的信息，分析着你的偏好，然后向你推荐越来越喜欢的内容。整个过程也许你并没有明显的感知，但是你会慢慢上瘾，喜欢上它，比如爱上虾米。这其实都是推荐算法的功劳。现在，你们也有机会用自己的算法让大家爱上购物。但是，音乐推荐、视频推荐、新闻推荐和品牌推荐的不同之处还是要注意的，要去思考的。不都是推荐么？有什阅读全文

posted @ 2014-04-02 10:22 Django's blog 阅读(310) 评论(0) 推荐(0) 编辑

推荐系统实践 - 第2章

摘要：1.发掘用户兴趣1）啤酒和尿布的故事2）用户行为数据：session log、impression log、click log。这些日志记录了用户的行为：浏览、购买、点击、评分、评论3）用户行为：显性反馈行为、隐性反馈行为2.用户行为分析1）长尾分布：发f(x)=ax^k2）协同过滤算法：仅仅基于用户行为数据设计的推荐算法。包含：基于邻域（基于用户的协同过滤算法userCF、基于物品的协同过滤算法itemCF）、隐语义模型、基于图的随机游走算法。3）userCF：给用户推荐和他兴趣相似的其他用户喜欢的物品。计算用户的相似度。Digg在应用，相比较MostPopular算法，准确率和召回率都要高阅读全文

posted @ 2014-03-21 18:17 Django's blog 阅读(650) 评论(0) 推荐(0) 编辑

推荐系统实践 - 第1章

摘要：1.互联网搜索及推荐发展1）早期的孤岛式网站，门户网站出现，网站导航，属于针对网站的推荐。但是内容的获取还是需要到相应网站上去浏览。2）搜索引擎：用户可以主动检索内容3）推荐系统：主动的推荐用户感兴趣的物品，广告定向投放等。推荐系统发展：热销推荐->个性化推荐->捆绑式推荐。netflix：研究的是预测用户看了电源后会给出怎样的评分。更有意义的应该是用户可能会喜欢的电源。2.推荐系统评测指标1）用户满意度：调查问卷或网站上收集2）预测准确度：平方根误差（RMSE）、平均绝对误差（MAE）3）召回率（recall）4）准确率（precision）5）覆盖率：如何发掘长尾商品。所有物品阅读全文

posted @ 2014-03-21 15:48 Django's blog 阅读(521) 评论(0) 推荐(0) 编辑

python实现itemCF and userCF

摘要：http://my.oschina.net/zhangjiawen/blog/185625１基于用户的协同过滤算法：基于用户的协同过滤算法是推荐系统中最古老的的算法，可以说是这个算法的诞生标志了推荐系统的诞生。该算法在1992年被提出，并应用于邮件过滤系统，1994年被GroupLens用于新闻过滤。在一个在线个性化推荐系统中，当一个用户A需要个性化推荐时，可以先找到和他有相似兴趣的其他用户，然后把那些用户喜欢的而用户A没有接触过的物品推荐给A。这种方法称为基于用户的协同过滤算法。给定用户u和用户v，令N(u)表示用户u曾经有过正反馈的物品集合，通过余弦相似度计算用户的相似度。由于很多用户相互阅读全文

posted @ 2014-03-11 16:30 Django's blog 阅读(5215) 评论(0) 推荐(0) 编辑

Mahout分步式程序开发基于物品的协同过滤ItemCF

摘要：http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始，中国进入大数据风起云涌的时代，以Hadoop为代表的家族软件，占据了大数据处理的广阔地盘。开源界阅读全文

posted @ 2014-03-11 15:45 Django's blog 阅读(1431) 评论(0) 推荐(0) 编辑

用Maven构建单机Mahout项目

摘要：Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始，中国进入大数据风起云涌的时代，以Hadoop为代表的家族软件，占据了大数据处理的广阔地盘。开源界及厂商，所有数据软件，无一不向Hadoop靠拢。Hadoop也从小众的高富帅领域，变成了大数据开发的标阅读全文

posted @ 2014-03-11 15:33 Django's blog 阅读(647) 评论(0) 推荐(0) 编辑

Apache Mahout：适合所有人的可扩展机器学习框架

摘要：http://www.ibm.com/developerworks/cn/java/j-mahout-scaling/在软件的世界中，两年就像是无比漫长的时光。在过去两年中，我们看到了社交媒体的风生水起、大规模集群计算的商业化（归功于 Amazon 和 RackSpace 这样的参与者），也看到了数据的迅猛增长以及我们诠释这些数据的能力的显著提升。“Apache Mahout 简介” 最初在 developerWorks 上发表也已经是两年之前的事情。这之后，Mahout 社区（以及项目的代码库和功能）取得了长足的发展。Mahout 也得到了全球各地各种规模的企业的积极采用。在我撰写的Apac 阅读全文

posted @ 2014-03-11 12:14 Django's blog 阅读(445) 评论(0) 推荐(0) 编辑

mahout0.7 示例运行纪实

摘要：http://1992mrwang.blog.51cto.com/3265935/1205282运行太不容易了所以要记下来以免后面忘记了首先是数据vim testdata.txt第一列为UserID ，第二列为ItemID，第三列为Preference Value 即评分1234567891011121314151617181920211,101,51,102,31,103,2.52,101,22,102,2.52,103,52,104,23,101,2.53,104,43,105,4.53,107,54,101,54,103,34,104,4.54,106,45,101,45,102,35 阅读全文

posted @ 2014-03-11 12:07 Django's blog 阅读(416) 评论(0) 推荐(0) 编辑

win7基于mahout推荐之用户相似度计算

摘要：http://www.douban.com/note/319219518/?type=likewin7基于mahout推荐之用户相似度计算2013-12-03 09:19:11事情回到半年前，我想做关于推荐系统的东西，结果看到了强大的apache mahout，然后各种安装linux，hadoop，apache，mahout，taste，结局是，一个星期的努力，失败....linux实在是hold不住啊，最后放弃了，可是最近计算用户相似度，实在是喜欢mahout 的开源，硬着头皮使用win7,+eclipse+maven+mahout0.8，下了好多东西；网站：mahout下载网站上面的东西基阅读全文

posted @ 2014-03-11 12:02 Django's blog 阅读(499) 评论(0) 推荐(0) 编辑

Mahout初体验

摘要：Mahout运行版本：mahout-0.5, mahout-0.6, mahout-0.7，是基于hadoop-0.20.2x的。mahout-0.8, mahout-0.9，是基于hadoop-1.1.x的。mahout-0.7，有一次重大升级，去掉了多个算法的单机内存运行，并且了部分API不向前兼容。注：“用Maven构建Mahout的开发环境”，文中的 2个例子都是基于单机的内存实现，因此选择0.6版本。Mahout在Hadoop集群中运行会在下一篇文章介绍。1. 安装Mahout svn co http://svn.apache.org/repos/asf/mahout/trunk . 阅读全文

posted @ 2014-03-10 18:03 Django's blog 阅读(315) 评论(0) 推荐(0) 编辑

win7下使用Taste实现协同过滤算法

摘要：如果要实现Taste算法，必备的条件是：1） JDK，使用1.6版本。需要说明一下，因为要基于Eclipse构建，所以在设置path的值之前要先定义JAVA_HOME变量。2） Maven，使用2.0.11版本或以上。在eclipse上安装maven插件—m2eclipse。3）Apache Mahout，使用0.5版本。Apache Mahout -Taste Documentation中的安装步骤：[javascript]view plaincopy4.DemoTobuildandrunthedemo,followtheinstructionsbelow,whicharewrittenfo 阅读全文

posted @ 2014-03-10 18:02 Django's blog 阅读(671) 评论(0) 推荐(0) 编辑

mahout安装

摘要：mahout是hadoop的一种高级应用。运行mahout需要提前安装好hadoop。hadoop的安装网上很多。而且也不复杂，这里不再讲述。这里默认hadoop已经安装完成。1：下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.5/ 下载，我选择下载二进制包，直接解压及可。2：配置环境变量：HADOOP_HOME,HADOOP_CONF_DIR,MAHOUT_HOME,格式如下export HADOOP_HOME=/usr/local/hadoop-0.20.205.0export HADOOP_CONF_DIR=/usr/lo 阅读全文

posted @ 2014-03-10 17:39 Django's blog 阅读(403) 评论(0) 推荐(0) 编辑

Mahout源码目录说明

摘要：http://www.cnblogs.com/dlts26/archive/2011/08/23/2150230.htmlmahout项目是由多个子项目组成的，各子项目分别位于源码的不同目录下，下面对mahout的组成进行介绍：1、mahout-core：核心程序模块，位于/core目录下；2、mahout-math：在核心程序中使用的一些数据通用计算模块，位于/math目录下；3、mahout-utils：在核心程序中使用的一些通用的工具性模块，位于/utils目录下；上述三个部分是程序的主题，存储所有mahout项目的源码。另外，mahout提供了样例程序，分别在taste-web和exa 阅读全文

posted @ 2014-03-10 16:44 Django's blog 阅读(226) 评论(0) 推荐(0) 编辑

Mahout 安装配置

摘要：http://log.medcl.net/item/2011/02/mahout_install/Apache Mahout是一个机器学习的框架，构建在hadoop上支持大规模数据集的处理，目前最新版本0.4。ApacheMahout简介http://www.ibm.com/developerworks/cn/java/j-mahout/基于 Apache Mahout 构建社会化推荐引擎http://www.ibm.com/developerworks/cn/java/j-lo-mahout/Taste：http://taste.sourceforge.netMahout currently 阅读全文

posted @ 2014-03-10 15:57 Django's blog 阅读(350) 评论(0) 推荐(0) 编辑

基于 Apache Mahout 构建社会化推荐引擎

摘要：http://www.ibm.com/developerworks/cn/java/j-lo-mahout/Web 2.0 的一个核心思想就是“群体智慧”，即基于大众行为，为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息，成为了 Web 应用成败的关键。Apache Mahout 是 ASF（Apache Software Foundation）的一个较新的开源项目，提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引擎，帮助 Web 应用开发者更高效的实现个性化推荐功能，从而提高最终用户满意度。推荐引擎简介阅读全文

posted @ 2014-03-10 15:24 Django's blog 阅读(309) 评论(0) 推荐(0) 编辑

探索推荐引擎内部的秘密，第 2 部分: 深入推荐引擎相关算法 - 协同过滤

摘要：本系列的第一篇为读者概要介绍了推荐引擎，下面几篇文章将深入介绍推荐引擎的相关算法，并帮助读者高效的实现这些算法。在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单，数据依赖性低，数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密，并给出基于 Apache Mahout 的协同过滤算法的高效实现。Apache Mahout 是 ASF 的一个较新的开源项目，它源于 Lucene，构建在 Hadoop 之上，关注海量数据上的机器学习经典算法的高效实现。http://www.ibm.com/de 阅读全文

posted @ 2014-03-10 14:31 Django's blog 阅读(458) 评论(0) 推荐(0) 编辑

Django's blog

随笔分类 - 数据挖掘及机器学习

公告