连续特征的embeding
目前常见的连续特征处理可以概括为三种:No Embedding、Field Embedding、Descretization。接下来将为大家一一介绍。
之前离散化的不足
尽管离散化在工业界广泛引用,但仍然有以下三方面的缺点:
- TPP(Two-Phase Problem):将特征分桶的过程一般使用启发式的规则(如 EDD、EFD)或者其他模型(如 GBDT),无法与 CTR 模型进行一起优化,即无法做到端到端训练。
- SBD(Similar value But Dis-similar embedding):对于边界值,两个相近的取值由于被分到了不同的桶中,导致其 embedding 可能相差很远。
- DBS(Dis-similar value But Same embedding):对于同一个桶中的边界值,两边的取值可能相差很远,但由于在同一桶中,其对应的 embedding 是相同的。
连续特征离散成n个桶,那么该连续特征可以学习到n*d的embeding,传统的离散学习是通过查表来确定该特征的embeding,可以加上加权,可以额外学习一个attention矩阵,加权获取最后的特征embeding表示。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)