推荐:新闻时效性模型(idea,未尝试)

http://www.c-s-a.org.cn/html/2018/5/6356.html

 

1. 新闻时效性模型

a. 文献老化率模型: Ke^(-at)

  k - 与 category 有关

  a - 文献的老化率

  t - 被引用频率

 

b. 新闻的时效性模型

  S(tn, t) = e^[-a(t - tn) + b]

  t - 当前时刻

  tn - 新闻发布时刻

  S(tn, t) = 用户反馈数目 (需要根据新闻系统自行定义 window size)

  a = 老化系数, a 越小,说明新闻性越强

  b = constant , 受初始阅读量影响较大

  用实际数据,去拟合,求出 a, b。得到新闻老化率公式:e^(b) e^(-at)e^(a tn)

  = 假设衰减慢的新闻,新闻时效性越高,具有更高的价值。

  = 当一条新闻超过生命周期后,则没有时效价值。

 

2. 实际用法

  a. 对新闻预测分数进行加权。

  b. 同时过滤过时新闻(我怀疑已经不需要了)

 

 

起因:流失用户吐槽 push 不够时效性。
假设:
1. 新闻事件随着时间的推移,时效性高的文章会失去新闻价值,但推荐系统对新闻点击率更敏感,热门文章可能在事件发生很久后依然被推送。
2. 使用click, share, like, favoriate 作为新闻反馈量。
3. 新闻反馈量 = k*e^-(t_now - t_in_db + constant )
t_now: 推荐模型准备推荐的时间,即当前时间
t_in_db: 初次被曝光的时间
分发时间越短,时效性越高。
constant: 新闻在初始阶段的反馈数目。
k:不同类型的新闻,对应不同的损失率,区分 evergreen / news / politics / sports...
4. 通过拟合求出,k, constant。
应用:
1. 适当在进 rank 前,过滤掉一些没有价值的新闻。
2. 在 rank 打分后,适当 boost 时效性高的文章。

和之前的区别:
1. 拟合真实的数据,求出 k, constant 的值;而非拍下一个高参。
2. 不同类型新闻,有不同的衰减力度,之前没有这么细。
3. 不对没有曝光的新闻进行衰减。
4. 引入除 show, click 外的其他反馈事件。
5. 之前时效性的判断基本上基于的是入库时间,而非初次曝光时间。

posted @ 2021-08-24 17:12  nuo-o  阅读(235)  评论(0编辑  收藏  举报