datawhale 新闻推荐 task2 学习笔记

对于原始数据进行了分析和拼接

同时学习了pandas的语法,将numpy和pandas做了一个比较:

  • numpy主要用来进行矩阵运算,所处理的主要是单纯的数据,包含一些常用的矩阵运算
  • pandas主要用来处理表格类数据,类似于处理关系数据库中表的拼接与提取之类的

同时,通过数据分析我们可以得到以下的结论:

  • 训练集和测试集的用户id没有重复,也就是测试集里面的用户没有模型是没有见过的
  • 训练集中用户最少的点击文章数是2, 而测试集里面用户最少的点击文章数是1
  • 用户对于文章存在重复点击的情况, 但这个都存在于训练集里面
  • 同一用户的点击环境存在不唯一的情况,后面做这部分特征的时候可以采用统计特征
  • 用户点击文章的次数有很大的区分度,后面可以根据这个制作衡量用户活跃度的特征
  • 文章被用户点击的次数也有很大的区分度,后面可以根据这个制作衡量文章热度的特征
  • 用户看的新闻,相关性是比较强的,所以往往我们判断用户是否对某篇文章感兴趣的时候, 在很大程度上会和他历史点击过的文章有关
  • 用户点击的文章字数有比较大的区别, 这个可以反映用户对于文章字数的区别
  • 用户点击过的文章主题也有很大的区别, 这个可以反映用户的主题偏好
  • 不同用户点击文章的时间差也会有所区别, 这个可以反映用户对于文章时效性的偏好

 以上这些数据分析,对于我们之后的计算很有帮助

posted @ 2020-11-28 00:22  rxd_呼啦啦的少年  阅读(57)  评论(0编辑  收藏  举报