随笔分类 - 数据挖掘及机器学习
protobuf,log4j,日志处理及挖掘
摘要:http://www.tuicool.com/articles/6reU7f收集和整理了目前互联网上能找到的和推荐系统相关的开源项目(Open Source Software | Recommendation),罗列如下,希望对本领域感兴趣的朋友有帮助(文/陈运文)SVDFeature由上海交大的同学开发(开发语言C++),代码严谨、质量高,我们参加KDD竞赛时用过,很可靠和方便,而且出自咱们国人之手,所以置顶推荐!项目地址:http://svdfeature.apexlab.org/wiki/Main_PageSVDFeature包含一个很灵活的Matrix Factorization推荐框
阅读全文
摘要:推荐系统中所使用的混合技术介绍http://www.tuicool.com/articles/ruYnAn原文http://www.resyschina.com/2013/10/ensemble-recommendation.html文/陈运文在推荐系统实际运用中,各种混合技术是其中一项极为重要的核心技术。在工程实践中我们发现,混合技术对提升推荐效果、改进推荐系统的性能等都有重要意义,因此本文对该专题进行如下的一些总结和介绍。引言在这个信息爆炸的时代,消费者面临众多选择、未知的领域、过载的信息时,往往无所适从;然而与此同时,内容的生产者(例如商家)也在苦苦寻觅合适的用户,寻找最便捷的渠道,而解
阅读全文
摘要:协同过滤算法一、介绍:http://blog.csdn.net/v_july_v/article/details/7184318http://blog.163.com/lnhenrylee@126/blog/static/2414832520123269713813/http://zh.wikipedia.org/wiki/%E5%8D%94%E5%90%8C%E9%81%8E%E6%BF%BE#.E6.9C.AA.E4.BE.86.E7.99.BC.E5.B1.95http://zh.wikipedia.org/wiki/Slope_one基于协同过滤的三个子类:基于用户的推荐(通过共同口味
阅读全文
摘要:http://bbs.aliyun.com/read/154433.html?spm=5176.7189909.0.0.gzyohy&fpage=2看到主办方之前发的一篇文章里提到,这个购买行为 和 传统的评分过滤问题 还是很不一样的。但为什么亚马逊 会使用 item-cf等协同过滤算法呢?这里用item-cf算法为什么会这么差?难道亚马逊 和天猫上的购买行为 有差别?协同过滤的关键是要知道用户的显性反馈,即评分。这个数据集根本就没有给评分,即便是利用购买来做评分,利用binary rate来做,正负例比例失调,购买带来的信息太少。其他行为作为隐形反馈很难合理的加进SVD++进去。总体
阅读全文
摘要:http://bbs.aliyun.com/read/153103.html?spm=5176.7189909.0.0.KWGWap一、同为推荐,大不同! 不知道同学们是否经常在天猫购物,但是相信大家一定听过音乐,看过电影,读过新闻和小说。大家在享受各种娱乐信息的时候,正在被网站的后台悄悄地记录着你的信息,分析着你的偏好,然后向你推荐越来越喜欢的内容。整个过程也许你并没有明显的感知,但是你会慢慢上瘾,喜欢上它,比如爱上虾米。这其实都是推荐算法的功劳。现在,你们也有机会用自己的算法让大家爱上购物。但是,音乐推荐、视频推荐、新闻推荐和品牌推荐的不同之处还是要注意的,要去思考的。 不都是推荐么?有什
阅读全文
摘要:1.发掘用户兴趣1)啤酒和尿布的故事2)用户行为数据:session log、impression log、click log。这些日志记录了用户的行为:浏览、购买、点击、评分、评论3)用户行为:显性反馈行为、隐性反馈行为2.用户行为分析1)长尾分布:发f(x)=ax^k2)协同过滤算法:仅仅基于用户行为数据设计的推荐算法。包含:基于邻域(基于用户的协同过滤算法userCF、基于物品的协同过滤算法itemCF)、隐语义模型、基于图的随机游走算法。3)userCF:给用户推荐和他兴趣相似的其他用户喜欢的物品。计算用户的相似度。Digg在应用,相比较MostPopular算法,准确率和召回率都要高
阅读全文
摘要:1.互联网搜索及推荐发展1)早期的孤岛式网站,门户网站出现,网站导航,属于针对网站的推荐。但是内容的获取还是需要到相应网站上去浏览。2)搜索引擎:用户可以主动检索内容3)推荐系统:主动的推荐用户感兴趣的物品,广告定向投放等。推荐系统发展:热销推荐->个性化推荐->捆绑式推荐。netflix:研究的是预测用户看了电源后会给出怎样的评分。更有意义的应该是用户可能会喜欢的电源。2.推荐系统评测指标1)用户满意度:调查问卷或网站上收集2)预测准确度:平方根误差(RMSE)、平均绝对误差(MAE)3)召回率(recall)4)准确率(precision)5)覆盖率:如何发掘长尾商品。所有物品
阅读全文
摘要:http://my.oschina.net/zhangjiawen/blog/1856251基于用户的协同过滤算法:基于用户的协同过滤算法是推荐系统中最古老的的算法,可以说是这个算法的诞生标志了推荐系统的诞生。该算法在1992年被提出,并应用于邮件过滤系统,1994年被GroupLens用于新闻过滤。在一个在线个性化推荐系统中,当一个用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,然后把那些用户喜欢的而用户A没有接触过的物品推荐给A。这种方法称为基于用户的协同过滤算法。给定用户u和用户v,令N(u)表示用户u曾经有过正反馈的物品集合,通过余弦相似度计算用户的相似度。由于很多用户相互
阅读全文
摘要:http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界
阅读全文
摘要:Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发的标
阅读全文
摘要:http://www.ibm.com/developerworks/cn/java/j-mahout-scaling/在软件的世界中,两年就像是无比漫长的时光。在过去两年中,我们看到了社交媒体的风生水起、大规模集群计算的商业化(归功于 Amazon 和 RackSpace 这样的参与者),也看到了数据的迅猛增长以及我们诠释这些数据的能力的显著提升。“Apache Mahout 简介” 最初在 developerWorks 上发表也已经是两年之前的事情。这之后,Mahout 社区(以及项目的代码库和功能)取得了长足的发展。Mahout 也得到了全球各地各种规模的企业的积极采用。在我撰写的Apac
阅读全文
摘要:http://1992mrwang.blog.51cto.com/3265935/1205282运行太不容易了 所以要记下来以免后面忘记了首先是数据vim testdata.txt第一列为UserID ,第二列为ItemID,第三列为Preference Value 即评分1234567891011121314151617181920211,101,51,102,31,103,2.52,101,22,102,2.52,103,52,104,23,101,2.53,104,43,105,4.53,107,54,101,54,103,34,104,4.54,106,45,101,45,102,35
阅读全文
摘要:http://www.douban.com/note/319219518/?type=likewin7基于mahout推荐之用户相似度计算2013-12-03 09:19:11事情回到半年前,我想做关于推荐系统的东西,结果看到了强大的apache mahout,然后各种安装linux,hadoop,apache,mahout,taste,结局是,一个星期的努力,失败....linux实在是hold不住啊,最后放弃了,可是最近计算用户相似度,实在是喜欢mahout 的开源,硬着头皮使用win7,+eclipse+maven+mahout0.8,下了好多东西;网站:mahout下载网站上面的东西基
阅读全文
摘要:Mahout运行版本:mahout-0.5, mahout-0.6, mahout-0.7,是基于hadoop-0.20.2x的。mahout-0.8, mahout-0.9,是基于hadoop-1.1.x的。mahout-0.7,有一次重大升级,去掉了多个算法的单机内存运行,并且了部分API不向前兼容。注:“用Maven构建Mahout的开发环境”,文中的 2个例子都是基于单机的内存实现,因此选择0.6版本。Mahout在Hadoop集群中运行会在下一篇文章介绍。1. 安装Mahout svn co http://svn.apache.org/repos/asf/mahout/trunk .
阅读全文
摘要:如果要实现Taste算法,必备的条件是:1) JDK,使用1.6版本。需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量。2) Maven,使用2.0.11版本或以上。在eclipse上安装maven插件—m2eclipse。3)Apache Mahout,使用0.5版本。Apache Mahout -Taste Documentation中的安装步骤:[javascript]view plaincopy4.DemoTobuildandrunthedemo,followtheinstructionsbelow,whicharewrittenfo
阅读全文
摘要:mahout是hadoop的一种高级应用。运行mahout需要提前安装好hadoop。hadoop的安装网上很多。而且也不复杂,这里不再讲述。这里默认hadoop已经安装完成。1:下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.5/ 下载,我选择下载二进制包,直接解压及可。2:配置环境变量:HADOOP_HOME,HADOOP_CONF_DIR,MAHOUT_HOME,格式如下export HADOOP_HOME=/usr/local/hadoop-0.20.205.0export HADOOP_CONF_DIR=/usr/lo
阅读全文
摘要:http://www.cnblogs.com/dlts26/archive/2011/08/23/2150230.htmlmahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对mahout的组成进行介绍:1、mahout-core:核心程序模块,位于/core目录下;2、mahout-math:在核心程序中使用的一些数据通用计算模块,位于/math目录下;3、mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下;上述三个部分是程序的主题,存储所有mahout项目的源码。另外,mahout提供了样例程序,分别在taste-web和exa
阅读全文
摘要:http://log.medcl.net/item/2011/02/mahout_install/Apache Mahout是一个机器学习的框架,构建在hadoop上支持大规模数据集的处理,目前最新版本0.4。ApacheMahout简介http://www.ibm.com/developerworks/cn/java/j-mahout/基于 Apache Mahout 构建社会化推荐引擎http://www.ibm.com/developerworks/cn/java/j-lo-mahout/Taste:http://taste.sourceforge.netMahout currently
阅读全文
摘要:http://www.ibm.com/developerworks/cn/java/j-lo-mahout/Web 2.0 的一个核心思想就是“群体智慧”,即基于大众行为,为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息,成为了 Web 应用成败的关键。Apache Mahout 是 ASF(Apache Software Foundation)的一个较新的开源项目,提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引擎,帮助 Web 应用开发者更高效的实现个性化推荐功能,从而提高最终用户满意度。推荐引擎简介
阅读全文
摘要:本系列的第一篇为读者概要介绍了推荐引擎,下面几篇文章将深入介绍推荐引擎的相关算法,并帮助读者高效的实现这些算法。 在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密,并给出基于 Apache Mahout 的协同过滤算法的高效实现。Apache Mahout 是 ASF 的一个较新的开源项目,它源于 Lucene,构建在 Hadoop 之上,关注海量数据上的机器学习经典算法的高效实现。http://www.ibm.com/de
阅读全文