连续特征的embeding

目前常见的连续特征处理可以概括为三种:No EmbeddingField EmbeddingDescretization。接下来将为大家一一介绍。

 

 

 

之前离散化的不足

尽管离散化在工业界广泛引用,但仍然有以下三方面的缺点:

  1. TPPTwo-Phase Problem):将特征分桶的过程一般使用启发式的规则(如 EDD、EFD)或者其他模型(如 GBDT),无法与 CTR 模型进行一起优化,即无法做到端到端训练。
  2. SBDSimilar value But Dis-similar embedding):对于边界值,两个相近的取值由于被分到了不同的桶中,导致其 embedding 可能相差很远。
  3. DBSDis-similar value But Same embedding):对于同一个桶中的边界值,两边的取值可能相差很远,但由于在同一桶中,其对应的 embedding 是相同的。

连续特征离散成n个桶,那么该连续特征可以学习到n*d的embeding,传统的离散学习是通过查表来确定该特征的embeding,可以加上加权,可以额外学习一个attention矩阵,加权获取最后的特征embeding表示。

posted @ 2023-05-11 19:42  15375357604  阅读(250)  评论(0编辑  收藏  举报