基于storm和hadoop的广告系统研究【5】
数值逻辑化处理
许多维度上的数据并不是数值的,如一个用户访问的网页地址,搜索的关键词等等
直接对这样的维度进行处理并不合适,需要进行数字化处理,一般就是用id替代
然后,大多数情况下通过id只存在时序上的相关并不存在逻辑上的相关。
比如id相邻的两个关键词,一个是“金融”,一个是“考古”,但是在某些算法分析中,有可能把二者作为一个类别给处理了。
所以就需要在进行数字化处理的同时还要进行逻辑化处理,让数据的值域有着逻辑上的关联。
逻辑化处理并不会影响算法效果,而且还能给使用了数值距离分析的算法提供一定的便利。
广告点击预测
进行广告点击预测则需要一个广告点击记录表和广告展示记录表
广告点击记录表
序号 | 字段名 | 类型 | 注释 |
1 | id | int | 主键id |
2 | urlid | int | 广告宿主页面地址id |
3 | cookieid | string | 用户客户端的cookieid |
4 | ip | string | 用户访问ip |
5 | advid | int | 广告id |
6 | clicktime | datetime | 点击时间 |
广告展示记录表
序号 | 字段名 | 类型 | 注释 |
1 | id | int | 主键id |
2 | urlid | int | 广告宿主页面地址id |
3 | cookieid | string | 用户客户端的cookieid |
4 | ip | string | 用户访问ip |
5 | advid | int | 广告id |
6 | showtime | datetime | 展示时间 |