摘要: 问题:BERT的表示本身存在塌缩的问题。通过对BERT词表示的观察,会发现整体呈锥形分布:高频词聚集在锥头部,低频词分散在锥尾。又由于高频词本身是高频的,因此会主要贡献整个的句子表示,让整体的相似度都很高。 解决思路: 对比学习,它是通过拉近相同样本的距离、拉远不同样本的距离,来刻画样本本身的表示, 阅读全文
posted @ 2022-11-21 16:01 sunshine丶23 阅读(419) 评论(0) 推荐(0) 编辑