Mahout的推荐系统

Mahout的推荐系统

什么是推荐系统
为什使用推荐系统
推荐系统中的算法

什么是推荐系统

为什么使用推荐系统？

　　促进厂商商品销售，帮助用户找到想要的商品

　　推荐系统无处不在，体现在生活的各个方面

　　图书推荐；QQ好友推荐；优酷，爱奇艺的视频推荐；豆瓣的音乐推荐；大从点评的餐饮推荐；世纪佳缘的相亲推荐；智联招聘的职业推荐。

　　亚马逊的推荐系统深入到网站的各类商品，为亚马逊带来了至少30%的销售额。

推荐引擎工作原理

　　推荐系统主要向用户推荐可能感兴趣商品的系统。系统会给用户以TopN推荐给用户商品。

　　系统主要使用的数据是用户的历史商品购买记录，这部分数据存放在公司的数据库中。

Mahout的推荐系统整体架构

推荐系统的实现

　推荐系统中的算法

Apriori算法
基于用户
基于内容
基于协同过滤（用的最多）

Apriori算法-购物篮分析(关联分析)

　　“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市。沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现。
　　原来，美国的妇女通常在家照顾孩子，所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布，而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。
　　这个发现为商家带来了大量的利润，但是如何从浩如烟海却又杂乱无章的数据中，发现啤酒和尿布销售之间的联系呢？

Apriori算法的产生

　　1993年美国学者Agrawal提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。Agrawal从数学及计算机算法角度提出了商品关联关系的计算方法——Apriori算法。
　　沃尔玛从上个世纪90年代尝试将Aprior算法引入到POS机数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。

Apriori算法

如何寻找？
　　在历史购物记录中，一些商品总是在一起购买。但人看上去不是那么的直观的，而是隐蔽的。让计算机做这事，设法计算法让计算机自动去找，找到这样的模式(规律)。

目标:寻找那些总是一起出现商品。
　　mahout实战—>机器学习实战

　　《mahout实战》与《机器学习实战》一起购买的记录数占所有商品记录总数的比例——支持度(整体)
　　买了《mahout实战》与《机器学习实战》一起购买的记录数占所有购买《mahout实战》记录数的比例——置信度(局部)
需要达到一定的阈值

　　支持度、置信度越大，商品出现一起购买的次数就越多，可信度就越大。

支持度：在所有的商品记录中有2%量是购买《mahout实战》与《机器学习实战》
置信度：买《mahout实战》的顾客中有60%的顾客购买了《机器学习实战》

　　作用：找到商品购买记录中反复一起出现的商品，帮能助营销人员做更好的策略，帮助顾客方便购买。

　　策略：
　　　　1、同时购买的商品放一起
　　　　2、同时购买的商品放两端

支持度、置信度转化为数学语言进行计算：
　　A表示《mahout实战》 B表示《机器学习实战》

support(A->B) = P(AB) （《mahout实战》和《机器学习实战》一起买占总的购买记录的比例）
confidence(A->B) = P(B|A) （购买了《mahout实战》后，买《机器学习实战》占的比例）

项集：项的集合称为项集，即商品的组合。
k项集：k种商品的组合，不关心商品件数，仅商品的种类。
项集频率：商品的购买记录数，简称为项集频率，支持度计数。
注意，定义项集的支持度有时称为相对支持度，而出现的频率(比例)称为绝对支持度。
频繁项集：如果项集的相对支持度满足给定的最小支持度阈值，则该项集是频繁项集。
强关联规则:满足给定支持度和置信度阈值的关联规则