11 2022 档案

摘要:问题:BERT的表示本身存在塌缩的问题。通过对BERT词表示的观察,会发现整体呈锥形分布:高频词聚集在锥头部,低频词分散在锥尾。又由于高频词本身是高频的,因此会主要贡献整个的句子表示,让整体的相似度都很高。 解决思路: 对比学习,它是通过拉近相同样本的距离、拉远不同样本的距离,来刻画样本本身的表示, 阅读全文
posted @ 2022-11-21 16:01 sunshine丶23 阅读(457) 评论(0) 推荐(0) 编辑
摘要:文本相似度任务: 最近接到文本结构化的任务,经过一番实验发现,可将该任务转化为计算标题检索排序任务,可用文本相似度的方法来做。文本相似度计算可直接根据文本本身计算距离来得到或使用模型将语义向量化后再计算距离得到。 一、根据文本本身计算相似度: 1)余弦相似度 import numpy as np f 阅读全文
posted @ 2022-11-15 22:03 sunshine丶23 阅读(579) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示