03 2014 档案
摘要:1.发掘用户兴趣1)啤酒和尿布的故事2)用户行为数据:session log、impression log、click log。这些日志记录了用户的行为:浏览、购买、点击、评分、评论3)用户行为:显性反馈行为、隐性反馈行为2.用户行为分析1)长尾分布:发f(x)=ax^k2)协同过滤算法:仅仅基于用户行为数据设计的推荐算法。包含:基于邻域(基于用户的协同过滤算法userCF、基于物品的协同过滤算法itemCF)、隐语义模型、基于图的随机游走算法。3)userCF:给用户推荐和他兴趣相似的其他用户喜欢的物品。计算用户的相似度。Digg在应用,相比较MostPopular算法,准确率和召回率都要高
阅读全文
摘要:1.互联网搜索及推荐发展1)早期的孤岛式网站,门户网站出现,网站导航,属于针对网站的推荐。但是内容的获取还是需要到相应网站上去浏览。2)搜索引擎:用户可以主动检索内容3)推荐系统:主动的推荐用户感兴趣的物品,广告定向投放等。推荐系统发展:热销推荐->个性化推荐->捆绑式推荐。netflix:研究的是预测用户看了电源后会给出怎样的评分。更有意义的应该是用户可能会喜欢的电源。2.推荐系统评测指标1)用户满意度:调查问卷或网站上收集2)预测准确度:平方根误差(RMSE)、平均绝对误差(MAE)3)召回率(recall)4)准确率(precision)5)覆盖率:如何发掘长尾商品。所有物品
阅读全文
摘要:http://my.oschina.net/zhangjiawen/blog/1856251基于用户的协同过滤算法:基于用户的协同过滤算法是推荐系统中最古老的的算法,可以说是这个算法的诞生标志了推荐系统的诞生。该算法在1992年被提出,并应用于邮件过滤系统,1994年被GroupLens用于新闻过滤。在一个在线个性化推荐系统中,当一个用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,然后把那些用户喜欢的而用户A没有接触过的物品推荐给A。这种方法称为基于用户的协同过滤算法。给定用户u和用户v,令N(u)表示用户u曾经有过正反馈的物品集合,通过余弦相似度计算用户的相似度。由于很多用户相互
阅读全文
摘要:http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界
阅读全文
摘要:Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发的标
阅读全文
摘要:http://www.ibm.com/developerworks/cn/java/j-mahout-scaling/在软件的世界中,两年就像是无比漫长的时光。在过去两年中,我们看到了社交媒体的风生水起、大规模集群计算的商业化(归功于 Amazon 和 RackSpace 这样的参与者),也看到了数据的迅猛增长以及我们诠释这些数据的能力的显著提升。“Apache Mahout 简介” 最初在 developerWorks 上发表也已经是两年之前的事情。这之后,Mahout 社区(以及项目的代码库和功能)取得了长足的发展。Mahout 也得到了全球各地各种规模的企业的积极采用。在我撰写的Apac
阅读全文
摘要:http://1992mrwang.blog.51cto.com/3265935/1205282运行太不容易了 所以要记下来以免后面忘记了首先是数据vim testdata.txt第一列为UserID ,第二列为ItemID,第三列为Preference Value 即评分1234567891011121314151617181920211,101,51,102,31,103,2.52,101,22,102,2.52,103,52,104,23,101,2.53,104,43,105,4.53,107,54,101,54,103,34,104,4.54,106,45,101,45,102,35
阅读全文
摘要:http://www.douban.com/note/319219518/?type=likewin7基于mahout推荐之用户相似度计算2013-12-03 09:19:11事情回到半年前,我想做关于推荐系统的东西,结果看到了强大的apache mahout,然后各种安装linux,hadoop,apache,mahout,taste,结局是,一个星期的努力,失败....linux实在是hold不住啊,最后放弃了,可是最近计算用户相似度,实在是喜欢mahout 的开源,硬着头皮使用win7,+eclipse+maven+mahout0.8,下了好多东西;网站:mahout下载网站上面的东西基
阅读全文
摘要:Cygwin使用方法2010-03-08 15:46:26|分类:电子爱好者|举报|字号订阅Cygwin使用方法学习心得2009-11-25 13:21:13阅读1327评论0字号:大中小对于 UNIX 本身,也有各种称呼。IBM® 大型机用户说各种带字母 “z” 的行话,比如 IBM z/OS® 和 System z9 Virtual Machine (z/VM);嵌套系统开发人员使用 eCos 这个词;在聊天中还会提到其他许多风格的 UNIX,比如 Linux®、FreeBSD、Sun Solaris 和 Mac OS X。现代信息技术使用各种各样的方言,简直
阅读全文
摘要:Mahout运行版本:mahout-0.5, mahout-0.6, mahout-0.7,是基于hadoop-0.20.2x的。mahout-0.8, mahout-0.9,是基于hadoop-1.1.x的。mahout-0.7,有一次重大升级,去掉了多个算法的单机内存运行,并且了部分API不向前兼容。注:“用Maven构建Mahout的开发环境”,文中的 2个例子都是基于单机的内存实现,因此选择0.6版本。Mahout在Hadoop集群中运行会在下一篇文章介绍。1. 安装Mahout svn co http://svn.apache.org/repos/asf/mahout/trunk .
阅读全文
摘要:如果要实现Taste算法,必备的条件是:1) JDK,使用1.6版本。需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量。2) Maven,使用2.0.11版本或以上。在eclipse上安装maven插件—m2eclipse。3)Apache Mahout,使用0.5版本。Apache Mahout -Taste Documentation中的安装步骤:[javascript]view plaincopy4.DemoTobuildandrunthedemo,followtheinstructionsbelow,whicharewrittenfo
阅读全文
摘要:mahout是hadoop的一种高级应用。运行mahout需要提前安装好hadoop。hadoop的安装网上很多。而且也不复杂,这里不再讲述。这里默认hadoop已经安装完成。1:下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.5/ 下载,我选择下载二进制包,直接解压及可。2:配置环境变量:HADOOP_HOME,HADOOP_CONF_DIR,MAHOUT_HOME,格式如下export HADOOP_HOME=/usr/local/hadoop-0.20.205.0export HADOOP_CONF_DIR=/usr/lo
阅读全文
摘要:Linux用户环境变量环境变量就是系统或软件设置的一些参数,用户环境变量就是用户登录系统后,都有自已专用的运行环境。在Windows系统中用户环境变量保存在用户家目录,Linux也是同样的。本文主要是讲解Linux常用的环境变量和环境变量的设置。一、环境变量相关操作(只应用于当前,要永久保存需要写入到相关文件。)#echo $PATH显示PATH设置。#env显示当前用户变量。#set显示当前Shell变量。#export显示当前导出成用户变量的shell变量。#a=abc定义一个Shell变量。#export a=abc定义一个Shell变量,并导出成用户变量。#unset a清除环境变量#
阅读全文
摘要:maven安装和环境变量配置myeclipse自带maven(Maven4MyEclipse)创建项目:新建Web Projects项目,在新建的页面上打上maven的勾。新建的项目里会多出个pom.xml文件为项目添加依赖包:右键项目,选择Maven4MyEclipse-->add Dependency。输入包名,maven会从中央库中查找。创建自己的依赖包:在pom.xml文件上右键,选择run as-->maven install。该命令将项目发布到本地的资源库中。其他项目需要用到这个资源,输入资源名称就可以找到。手动安装mavenMaven 2.2.1为例 (3.0.3没下
阅读全文
摘要:Maven常用命令:1. 创建Maven的普通java项目: mvn archetype:create -DgroupId=packageName -DartifactId=projectName2. 创建Maven的Web项目: mvn archetype:create -DgroupId=packageName -DartifactId=webappName -DarchetypeArtifactId=maven-archetype-webapp3. 编译源代码: mvn compile4. 编译测试代码:mvn test-compile5. 运行测试:mvn test6. 产生site:
阅读全文
摘要:http://www.cnblogs.com/dlts26/archive/2011/08/23/2150230.htmlmahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对mahout的组成进行介绍:1、mahout-core:核心程序模块,位于/core目录下;2、mahout-math:在核心程序中使用的一些数据通用计算模块,位于/math目录下;3、mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下;上述三个部分是程序的主题,存储所有mahout项目的源码。另外,mahout提供了样例程序,分别在taste-web和exa
阅读全文
摘要:http://log.medcl.net/item/2011/02/mahout_install/Apache Mahout是一个机器学习的框架,构建在hadoop上支持大规模数据集的处理,目前最新版本0.4。ApacheMahout简介http://www.ibm.com/developerworks/cn/java/j-mahout/基于 Apache Mahout 构建社会化推荐引擎http://www.ibm.com/developerworks/cn/java/j-lo-mahout/Taste:http://taste.sourceforge.netMahout currently
阅读全文
摘要:http://www.ibm.com/developerworks/cn/java/j-lo-mahout/Web 2.0 的一个核心思想就是“群体智慧”,即基于大众行为,为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息,成为了 Web 应用成败的关键。Apache Mahout 是 ASF(Apache Software Foundation)的一个较新的开源项目,提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引擎,帮助 Web 应用开发者更高效的实现个性化推荐功能,从而提高最终用户满意度。推荐引擎简介
阅读全文
摘要:本系列的第一篇为读者概要介绍了推荐引擎,下面几篇文章将深入介绍推荐引擎的相关算法,并帮助读者高效的实现这些算法。 在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密,并给出基于 Apache Mahout 的协同过滤算法的高效实现。Apache Mahout 是 ASF 的一个较新的开源项目,它源于 Lucene,构建在 Hadoop 之上,关注海量数据上的机器学习经典算法的高效实现。http://www.ibm.com/de
阅读全文
摘要:转:http://blog.csdn.net/huagong_adu/article/details/7362908最近参加KDD Cup 2012比赛,选了track1,做微博推荐的,找了推荐相关的论文学习。“Item-Based Collaborative Filtering Recommendation Algorithms”这篇是推荐领域比较经典的论文,现在很多流行的推荐算法都是在这篇论文提出的算法的基础上进行改进的。 一、协同过滤算法描述 推荐系统应用数据分析技术,找出用户最可能喜欢的东西推荐给用户,现在很多电子商务网站都有这个应用。目前用的比较多、比较成熟的推荐算法是协同过...
阅读全文
摘要:主要的推荐算法简介转载:http://blog.sina.com.cn/s/blog_602feaa80100fjq9.html在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内
阅读全文
摘要:def connect(_host, _user, _passwd, _db, _charset, _port): conn = MySQLdb.connect(host=_host, user=_user, passwd=_passwd, db=_db, charset=_charset, ...
阅读全文
摘要:http://www.cnblogs.com/xuxm2007/archive/2011/01/17/1937220.htmlhttp://www.linux-field.com/?p=15Python中执行系统命令常见方法有两种:两者均需 import os(1) os.system# 仅仅在一个子终端运行系统命令,而不能获取命令执行后的返回信息system(command) -> exit_statusExecute the command (a string) in a subshell.# 如果再命令行下执行,结果直接打印出来>>> os.system('
阅读全文
摘要:转自:http://www.oschina.net/question/234345_52660熟悉了Qt的QProcess以后,再回头来看python的subprocess总算不觉得像以前那么恐怖了。和QProcess一样,subprocess的目标是启动一个新的进程并与之进行通讯。subprocess.Popen这个模块主要就提供一个类Popen:class subprocess.Popen( args, bufsize=0, executable=None, stdin=None, stdout=None, stderr=None, ...
阅读全文
摘要:使用ConfigParser来读取配置文件,经常会发现经过记事本、notepad++修改后的配置文件读取时出现下面的问题:ConfigParser.MissingSectionHeaderError: File contains no section headers.file: ../conf/mal_crawler_allcids.conf, line: 1'\xef\xbb\xbf[basic_config]\r\n'调试程序后发现文件头部被追加了信息:\xef\xbb\xbf,然后ConfigParser解析出错google了下\xef\xbb\xbf,原因:在windo
阅读全文