[转载]推荐系统的那点事

我心目中的推荐系统

不管是电商，或者是新闻，都有【个性化推荐】和【热门推荐】的取舍。一个商品热门或者点击量高是有其原因的。所以将热门的东西推荐给用户是非常合情合理的，因为既然热门，也侧面说明了很大概率上该用户也会喜欢该商品。而【个性化推荐】本质上是为了解决【长尾】问题，把那些不热门的东西，但是很可能符合某特定用户品味的商品【挖掘】出来，推荐给特定的用户群。

首先，在推荐中，醒目的推荐位应该是【热门推荐】或者【人工推荐】，【人工推荐】是指比如在体育新闻中，巴萨夺冠之类的大新闻是直接让编辑来【人工推荐】即可，就是此新闻一出，马上登上头条，而不是在那磨磨唧唧的计算特征值，计算相似度，计算是否符合用户兴趣。对于推荐中的【冷启动】，最理想的推荐就是【相关推荐】。说到这里，整个推荐系统的 80% 已经搭建完毕，【热门推荐+人工推荐+相关推荐】，这三者都是【个性化】都没什么关系，也算法关系也不大，但是这三者效果的好坏就决定了整个系统推荐效果好坏的 80% 。好多人连最基本的这三者都没有做好，就开始想一步登天，很可惜，这样的捷径是不存在的。接下来是 20% 的【个性化】的做法，如上所说，个性化是为了解决【长尾】问题，正是因为长尾占商品的 20% ，所以在此我认为【个性化】其实也只有 20% 。要解决个性化，首先就是要对用户分析，最成熟的办法就是对用户打标签（是否让你想起来社交网络为什么经常让你选用合适的标签描述自己，没错，就是为了分析你）。

其实，给用户打标签，逼格更高的说法叫【用户特征提取】或者【用户行为分析】。说到这两个词，那些所谓的算法工程师可能就会开始扯什么高大上的算法，机器学习，自然语言处理，数据挖掘等各种算法。其实在我看来，算法很大情况根本派不上用场，我认为这方面的关键在于【数据统计 + 人工分析】。将用户的浏览记录等记录下来，统计他最常点击的东西，最常去的频道，然后给他打上这些频道或者商品的标签。或者收集更详细的信息，比如年龄，打上【青少年，男人，女人，老人】等标签，根据这些标签进行推荐。比如当推荐护肤的商品时，就可以偏向于女人，推荐运动产品时，就可以偏向于男人和青少年，推荐保健品时，就可以偏向于老年人。所以，光看年龄这个标签的维度，就可以做很多文章。所以标签库的设计和积累，是非常广泛和重要的，而这方面需要大量依赖于【人工分析】，而不是看论文调算法能做到的。就好比现在的中文分词，拼到最后大家都在比词库的积累，谁的词库好，谁的效果就好，【搜狗】的【拼音输入法】效果好也是因为词库比别人好。

最后就是根据标签的定向推荐，这个推荐概率是有【权重设置】在里面，就比如刚才对年龄这个维度的权重，是需要给予对应的权重值，如何给定呢？其实就是【拍脑袋】，当然，如果有某些公司已经得出经验值了直接可以拿来用就会更好。但是在拍完脑袋之后需要做的就是观察点击率变化，查Bad Case，然后再对权重进行调整，也就是根据评测和反馈来调整，没有【评测和反馈】，整个系统等于是一个黑盒，谈何优化？在我看来，【推荐系统】本质上首先是一个系统，需要不断的对各种效果进行【评测】，查各种【Bad Case】，而这些都不是看论文可以学到的东西。

总结

实力派的【算法工程师】往往都是ABC[always be coding]，这样的算法工程师才能根据实际问题建立模型或者建立规则库，是真正能解决问题的人。往往是一些有研究背景，经验丰富的研究员，更加重视工程，因为工程架构上一些恰当合理的设计，效果往往就能远远高过于模型算法优化。
学院派的【算法工程师】往往是为了算法而算法，而不是为了解决推荐系统的问题去找最适合算法。这也是为什么大公司经常招了一些博士毕业的算法工程师后，不是研究算法而是让他们整天在那看数据报表？【因为发现算法没啥好研究，只能让他们在那看看报表找找规律了。】
【几乎所有所谓的智能推荐算法都是花拳绣腿】
当一个做推荐系统的部门开始重视【数据清理，数据标柱，效果评测，数据统计，数据分析】这些所谓的脏活累活，这样的推荐系统才会有救。
儿童节快乐

posted on 2014-06-25 17:52 khunwang 阅读(97) 评论(0) 收藏举报

刷新页面返回顶部

[转载]推荐系统的那点事

推荐系统的误区

我心目中的推荐系统

总结

导航

公告