使用apache下pig的一点总结

今天下午在公司用PIG来实现一种数据分析的算法,感觉很不错,在这里做一个记录,主要是实现一种逻辑关系。

        兴例来说就是用户买了一件物品,除了这个物品外还买了哪些物品 ,可以对类似的用户做推荐。如下有一组数据结构:

           X1       Y1

           X2       Y2

           X3       Y3

           X1        Y4

           X5        Y5

          X表示用户,Y表示用户所买的物品

         首先可以做一次JOIN关联:(对数据自己本身做一关联JOIN操作)

         X1         Y1        X1        Y1

        X1          Y1        X1        Y4

        X2          Y2        X2        Y2

        X3          Y3        X3        Y3

        X5          Y5        X5        Y5 

然后我们只保留两列Y

对Y做group和count操作就能获得物品和物品之间的关系了,就可以根据排行推荐给用户了。

是不是很简单啊,这可花了一两个小时才想出来的算法啊,感觉还不错,在此记录一下,希望对其它人也有帮助。

posted @ 2012-05-22 14:12  jerome.rong  阅读(802)  评论(0编辑  收藏  举报