Is the KDD Cup really music recommendation? 2011年kddcup之音乐推荐

KDD Cup 2011的主题是音乐推荐,虽然数据集还没有正式公布,但相关的讨论已经开始预热了。本次数据集合的一个特点,是评分对象不光是歌曲,还包括专辑、艺术家 和音乐流派,这使得用户的偏好相对更丰富和层次化;但content-based的研究者意见很大,音乐信息也被搞成匿名使得他们基本没法玩了。

其实个人认为,即使有了用户评分和资源数据,类似这样以特定目标函数为优化对象的竞赛,距离实际应用的音乐推荐系统还有蛮大的差别。毕竟我们没办法拿几个 prediction指标来评价效果,更何况对于一个日常实际应用来讲,在更新相对缓慢的音乐数据集合上想要做的不是一个单次推荐。还是那句正确的废话, 数据、算法、产品一个都不能少。

译文

KDD Cup是一年一度的数据挖掘和知识发现竞赛,由the ACM Special Interest Group on Knowledge Discovery and Data Mining主办。今年KDD Cup的主题是learn the rhythm, predict the musical scores(理解节奏韵律,预测音乐评分)。雅虎音乐提供了超过1百万匿名用户的3亿条评分数据,这些评分分别针对歌曲、专辑、艺术家和音乐流派。这次比赛的目标是:(1)准确的预测用户的评分(2)区分用户喜爱的歌曲与其他歌曲。

这是一个非常令人兴奋的数据集;也许是有史以来最大的公开音乐数据集。一定程度上我们可以期待这个数据集在音乐推荐领域带来类似Netflix奖的巨大推 动作用。然而存在一个问题,这些数据是完全匿名的:不光用户匿名,歌曲、专辑、艺术家、流派,所有东东都是匿名的。所以每条数据看上去不是“用户X给了春 哥一个5星评价”,而是“用户X给了歌手Y一个五星评价”。下面是一个数据样本:
3|14  # user ID 3 has 14 ratings
5980    90      3811    13:24:00   # item 5980 got a score of 90/100
11059   90      3811    13:24:00   # 3811 is a day offset from an
21931   90      3811    13:24:00   #     undisclosed date
74262   90      3811    13:24:00   #
146781  90      3811    13:24:00   # 13:24 is the time on day 3811
173094  90      3811    13:24:00
175835  90      3811    13:24:00
180037  90      3811    13:24:00
194044  90      3811    13:24:00
267723  90      3811    13:24:00
290303  90      3811    13:24:00
366723  90      3811    13:24:00
432968  90      3811    13:24:00
451800  90      3811    13:24:00

无法将item ID与实际的音乐item对应,使得这项比赛更像是一场关于协同过滤算法(CF)而非音乐推荐的竞赛了。正如Oscar Celma(《Music Recommendation and Discovery》的作者)在KDD Cup论坛中说的那样:

  • 没有歌手/歌曲名,我对这数据集不感兴趣(如果不能理解你要预测得东西,那么预测本身便毫无疑义)。现如今,这并不是一个真正的“音乐数据集”或“音乐推荐”竞赛,而仅仅是要将CF算法应用于一个巨大的数据集。在某种程度上,这确实是CF研究者的利好消息。但对于这个领域来讲并不能产生任何新知识…恕我直言,它没有任何意义。

研究者Amelie Anglade补充到:

  • 如果拿到真实的艺术家和曲目名,便能有很多可以做的事情:使用音乐信息检索技术,我们可以分析音频数据(节奏、和弦、旋律、音色等)、得分、歌词、艺术家间关联等等等等。实际上越来越多的人正在进行这些方向上的工作,本次竞赛除了流派(作用很有限)外不提供任何内容信息,是对整个研究分支的忽视。

慷慨提供数据的雅虎员工实际上也认识到,真实音乐信息的缺失对音乐信息检索社区的研究人员参与竞赛带来的困难。但今年KDD Cup的组织者之一Noam Koenigstein说,提供匿名数据主要是考虑到围绕用户评分数据的大量法律争议和诉讼风险(见Netflix的诉讼)。Noam强调:

  • 经过在这个数据集上6个月的工作,我可以很大胆的说,基于音乐的CF和其他类型CF存在差异。比如音乐和电影(Netflix)在流行趋势上的不同;因此,需要考虑时间效应的CF系统在音乐领域也会不同。还存在其他方面的差异,但我不便透露更多了。

我赞同Noam的观点,音乐评分数据与其他数据间存在很多有意思的差异,研究这些差异将提升CF的研究状况和技艺水平。但我也赞同Oscar和Amelie:如果我们知道实际被评分的item就可以做的更多。

音乐推荐领域已经有两个非常活跃的研究社区。RecSys社区采取传统推荐系统的方法,依靠协同过滤技术产生推荐。在这个社区看来,基于用户行为数据的挖 掘就足以进行推荐了。音乐信息检索(MIR)社区则非常注重音乐本身,基于音频数据分析和content-based(CB)的方法来构建推荐应用。每种 方法都有自己的长处和短处(CF具有冷启动、头部叠加反馈、对hack水平敏感等问题,而CB方法则面临更大的计算挑战、同时区分好坏音乐也是一个问 题)。最好的系统往往需要结合这两种方法。

KDD Cup数据集是一套很棒的数据,我敢肯定,这些数据将帮助RecSys社区改善CF算法。而MIR社区也在生成自己工业量级的研究数据——最近将发布的Million Song Data Set用来改善CB技术。我希望有一天我们将能够提供综合数据集,包含大量的评分数据和内容数据。如果把这些数据交到研究人员的手中,所得将不言而喻。或许,这就是真正的问题。正如Jeremy Reed的推特所言:生物医学研究人员可以获取非法物质的研究,但我们却不能;因为这样我们可能会找出那些没品的用户!

本文转载自:http://blog.sina.com.cn/s/blog_476a546c0100oj8n.html

posted @ 2012-04-26 20:36  icamel  阅读(363)  评论(0编辑  收藏  举报