连续特征的embeding

目前常见的连续特征处理可以概括为三种:No EmbeddingField EmbeddingDescretization。接下来将为大家一一介绍。

 

 

 

之前离散化的不足

尽管离散化在工业界广泛引用,但仍然有以下三方面的缺点:

  1. TPPTwo-Phase Problem):将特征分桶的过程一般使用启发式的规则(如 EDD、EFD)或者其他模型(如 GBDT),无法与 CTR 模型进行一起优化,即无法做到端到端训练。
  2. SBDSimilar value But Dis-similar embedding):对于边界值,两个相近的取值由于被分到了不同的桶中,导致其 embedding 可能相差很远。
  3. DBSDis-similar value But Same embedding):对于同一个桶中的边界值,两边的取值可能相差很远,但由于在同一桶中,其对应的 embedding 是相同的。

连续特征离散成n个桶,那么该连续特征可以学习到n*d的embeding,传统的离散学习是通过查表来确定该特征的embeding,可以加上加权,可以额外学习一个attention矩阵,加权获取最后的特征embeding表示。

posted @   15375357604  阅读(352)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示