datawhale 新闻推荐 task2 学习笔记

对于原始数据进行了分析和拼接

同时学习了pandas的语法，将numpy和pandas做了一个比较：

numpy主要用来进行矩阵运算，所处理的主要是单纯的数据，包含一些常用的矩阵运算
pandas主要用来处理表格类数据，类似于处理关系数据库中表的拼接与提取之类的

同时，通过数据分析我们可以得到以下的结论：

训练集和测试集的用户id没有重复，也就是测试集里面的用户没有模型是没有见过的
训练集中用户最少的点击文章数是2，而测试集里面用户最少的点击文章数是1
用户对于文章存在重复点击的情况，但这个都存在于训练集里面
同一用户的点击环境存在不唯一的情况，后面做这部分特征的时候可以采用统计特征
用户点击文章的次数有很大的区分度，后面可以根据这个制作衡量用户活跃度的特征
文章被用户点击的次数也有很大的区分度，后面可以根据这个制作衡量文章热度的特征
用户看的新闻，相关性是比较强的，所以往往我们判断用户是否对某篇文章感兴趣的时候，在很大程度上会和他历史点击过的文章有关
用户点击的文章字数有比较大的区别，这个可以反映用户对于文章字数的区别
用户点击过的文章主题也有很大的区别，这个可以反映用户的主题偏好
不同用户点击文章的时间差也会有所区别，这个可以反映用户对于文章时效性的偏好

以上这些数据分析，对于我们之后的计算很有帮助

posted @ 2020-11-28 00:22 rxd_呼啦啦的少年阅读(57) 评论(0) 编辑收藏举报

刷新页面返回顶部