CTR和稀疏Sparse
CTR点击率预估模型。
特征是巨大且稀疏的。如何输入到Deep模型是个问题。
方法:
首先利用one-hot编码,制作稀疏特征。
然后利用spmm或者gather操作,变成word embedding。
one-hot到word embedding,这样整体的特征维度就下降了。(如100到16的维度变换)
embedding输出到Deep网络进行学习。
另外spmm的过程,其实就是一个“查表”的过程。如果A是稀疏矩阵,B是Dense矩阵,C是Dense矩阵。
则B就是一个“词表 embedding table”,那么A X B就是一个查表的过程。