使用apache下pig的一点总结
今天下午在公司用PIG来实现一种数据分析的算法,感觉很不错,在这里做一个记录,主要是实现一种逻辑关系。
兴例来说就是用户买了一件物品,除了这个物品外还买了哪些物品 ,可以对类似的用户做推荐。如下有一组数据结构:
X1 Y1
X2 Y2
X3 Y3
X1 Y4
X5 Y5
X表示用户,Y表示用户所买的物品
首先可以做一次JOIN关联:(对数据自己本身做一关联JOIN操作)
X1 Y1 X1 Y1
X1 Y1 X1 Y4
X2 Y2 X2 Y2
X3 Y3 X3 Y3
X5 Y5 X5 Y5
然后我们只保留两列Y
对Y做group和count操作就能获得物品和物品之间的关系了,就可以根据排行推荐给用户了。
是不是很简单啊,这可花了一两个小时才想出来的算法啊,感觉还不错,在此记录一下,希望对其它人也有帮助。