数据过滤
递归的艺术 - 深度递归网络在序列式推荐的应用 https://mp.weixin.qq.com/s/nzEnluS4YCEy95Lqv7tTKQ
在测试中,我们收集了QQ音乐最近的电台听歌记录,共约8千万条听歌序列,并对数据做了必要的预处理操作,主要包括下面两点:
-
去掉了点击序列小于5首,大于50首的听歌数据,去掉序列过少是为了防止误点击,去掉过长的听歌序列是为了防止用户忘记关掉播放器。
-
对于全部是5秒内跳过的听歌序列也同样去掉,这样可以有效防止不正当的负操作过多对模型训练产生的影响。
代码采用Theano深度学习框架来实现,Theano也是当前对RNN支持最好的深度学习框架之一,它的scan机制使得RNN (包括LSTM, GRU) 的实现代码非常优雅。下图是核心递归代码生成的图结构: