上一页 1 2 3 4 5 6 7 8 9 ··· 37 下一页
摘要: 背景 现有的工作只把用户表示成一个向量,但一个用户兴趣向量很难捕获用户多方面的兴趣,MIND是阿里提出的用于召回阶段的多兴趣建模论文,这篇论文把用户表示成了多个兴趣向量 方法 MIND的模型结构如下图所示,和常用的召回模型一样,先把每个用户表示成向量: 其中 Iu是用户的行为序列,Pu是用户属性特征 阅读全文
posted @ 2024-01-16 14:23 xd_xumaomao 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 背景 通过学习句子的向量表示达到语义搜索、文本相似度计算 方法 正样本:相邻片段 负样本:inbatch其它样本 参考资料 https://zhuanlan.zhihu.com/p/496870495 https://zhuanlan.zhihu.com/p/469474178 阅读全文
posted @ 2024-01-15 21:02 xd_xumaomao 阅读(35) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/148416488?utm_id=0 https://zhuanlan.zhihu.com/p/154401513 阅读全文
posted @ 2024-01-15 17:15 xd_xumaomao 阅读(55) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/415610118 https://mp.weixin.qq.com/s/gsI-LqaH_uHN0qJH98sS4A 阅读全文
posted @ 2024-01-15 15:05 xd_xumaomao 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 生成模型如何生成样本 我们现在有一些样本(如图片),想生成更多的样本(图片),应该怎么做呢?最直接的想法是去学习样本的分布 p(X) ,从这个分布 p(X) 采样就可以了,但是真实的样本分布往往是九曲回肠的,很难通过有限的样本直接学出来 那么可以换个思路,不直接学习分布,而是学习分布的映射,即训练一 阅读全文
posted @ 2024-01-09 14:07 xd_xumaomao 阅读(39) 评论(0) 推荐(0) 编辑
摘要: https://kexue.fm/archives/4439/comment-page-2 阅读全文
posted @ 2024-01-04 20:32 xd_xumaomao 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 背景 GPT-3 虽然在各大 NLP 任务以及文本生成的能力上令人惊艳,但是他仍然还是会生成一些带有偏见的,不真实的,有害的造成负面社会影响的信息,而且很多时候,他并不按人类喜欢的表达方式去说话。在这个背景下,OpenAI 提出了一个概念“Alignment”,意思是模型输出与人类真实意图对齐,符合 阅读全文
posted @ 2023-12-27 20:48 xd_xumaomao 阅读(76) 评论(0) 推荐(0) 编辑
摘要: GPT-3 和 GPT-2差别 1. 效果上,超出 GPT-2 非常多,能生成人类难以区分的新闻文章;2. 主推 few-shot,相比于 GPT-2 的 zero-shot,具有很强的创新性;3. 模型结构略微变化,采用 sparse attention 模块;4. 海量训练语料 45TB(清洗后 阅读全文
posted @ 2023-12-26 16:28 xd_xumaomao 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 背景 GPT1采用了pre-train + fine-tuning训练方式,也就是说为了适应不同的训练任务,模型还是需要在特定任务的数据集上微调,仍然存在较多人工干预的成本。GPT-2 想彻底解决这个问题,通过 zero-shot,在迁移到其他任务上的时候不需要额外的标注数据,也不需要额外的模型训练 阅读全文
posted @ 2023-12-25 22:01 xd_xumaomao 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 背景 GPT-1 采用了两阶段训练的方式: 1. 第一阶段 pre-training,在海量文本上训练,无需label,根据前k-1个词预测第k个单词是什么,第一阶段的训练让模型拥有了很多的先验知识,模型具有非常强的泛化性 2. 第二阶段在特定任务上fine-tuning,让模型能适应不同的任务,提 阅读全文
posted @ 2023-12-25 20:53 xd_xumaomao 阅读(148) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 37 下一页