wide & Deep模型

wide & Deep模型

稀疏特征

稀疏特征就是离散值特征,比如一个人的性别,就是男或者女, 没有其他的选项,是一个离散值。
像这样只能从有限个选项中选择的数据叫做稀疏特征

稀疏特征的优缺点

  • 优: 叉乘(点积)后有意义, 可以帮助获取共现信息,从而实现记忆效果

    两个稀疏特征A和B A是性别[M, F],B是年龄[1, 2,...,100]. A.B 就能代表全部人类在年龄和性别维度上的组合,这就是数据的总体,模型训练所使用的数据甚至是这个总数据的一个子集。 那记住这个大数据的模型就必然可以完美预测这部分子集数据。

  • 缺:

  1. 数据的维度需要人工去设计。 而且叉乘后占用空间特别大。
  2. 可能过拟合,因为所有特征都叉乘,相当于记住了每一个样本

密集特征

密集特征就是用向量表达特征。One-Hot编码可以使稀疏特征变成密集特征。 忽略数据的背景,比如将性别映射成一个N维向量, 职业也是一个N维向量, 男-女 = 国王-王后

密集特征的优缺点

  • 优:
  1. 带有语义信息,不同向量之间有相关性
  2. 兼容没有出现过的特征组合
  3. 更少的人工参与
  • 缺:
  1. 过渡泛化,预测出来的结果的相关性不太强
posted @ 2020-06-18 06:57  Sight-Tech  阅读(264)  评论(0编辑  收藏  举报