datawhale 新闻推荐 task2 学习笔记
对于原始数据进行了分析和拼接
同时学习了pandas的语法,将numpy和pandas做了一个比较:
- numpy主要用来进行矩阵运算,所处理的主要是单纯的数据,包含一些常用的矩阵运算
- pandas主要用来处理表格类数据,类似于处理关系数据库中表的拼接与提取之类的
同时,通过数据分析我们可以得到以下的结论:
- 训练集和测试集的用户id没有重复,也就是测试集里面的用户没有模型是没有见过的
- 训练集中用户最少的点击文章数是2, 而测试集里面用户最少的点击文章数是1
- 用户对于文章存在重复点击的情况, 但这个都存在于训练集里面
- 同一用户的点击环境存在不唯一的情况,后面做这部分特征的时候可以采用统计特征
- 用户点击文章的次数有很大的区分度,后面可以根据这个制作衡量用户活跃度的特征
- 文章被用户点击的次数也有很大的区分度,后面可以根据这个制作衡量文章热度的特征
- 用户看的新闻,相关性是比较强的,所以往往我们判断用户是否对某篇文章感兴趣的时候, 在很大程度上会和他历史点击过的文章有关
- 用户点击的文章字数有比较大的区别, 这个可以反映用户对于文章字数的区别
- 用户点击过的文章主题也有很大的区别, 这个可以反映用户的主题偏好
- 不同用户点击文章的时间差也会有所区别, 这个可以反映用户对于文章时效性的偏好
以上这些数据分析,对于我们之后的计算很有帮助