文章分类 -  AI

摘要:文本生成的事实性增强 解码策略 文章通过实验研究了解码算法的选择对生成的真实性的影响。 代表性算法:贪婪解码和核采样(top-p)。 核采样解决了贪婪解码的退化问题(重复),具有更好的多样性和更少的重复,但在真实性上不如贪婪解码。但贪婪解码的质量和多样性不好。 提出了一种真实性核采样解码策略,在生成 阅读全文
posted @ 2024-01-30 11:47 ︶ㄣ演戲ㄣ 阅读(20) 评论(0) 推荐(0) 编辑
摘要:https://arxiv.org/abs/2212.09462 方法 语言的潜在扩散 给定一些自然语言,它可以表示为词汇V上的一个one-hot向量序列lwRl×|V|。 BART的Encoder,E()将其映射到某个连续的潜在空间\(x\ 阅读全文
posted @ 2023-10-25 11:03 ︶ㄣ演戲ㄣ 阅读(8) 评论(0) 推荐(0) 编辑
摘要:https://arxiv.org/pdf/2310.11648v1.pdf 1.问题:摘要模型的忠诚度问题。 以前的方法: 在其他任务上训练的模型(通过零样本学习)转移到摘要领域。(模型性能缺乏保证) 使用合成域内数据进行弱监督评估。 (泛化能力差) 用ChatGPT,通过设计prompts以零样 阅读全文
posted @ 2023-10-23 15:32 ︶ㄣ演戲ㄣ 阅读(46) 评论(0) 推荐(0) 编辑
摘要:8个数据 ![image](https://img2023.cnblogs.com/blog/2417944/202308/2417944-20230811173902912-1492730919.png) ![image](https://img2023.cnblogs.com/blog/2417 阅读全文
posted @ 2023-08-11 18:24 ︶ㄣ演戲ㄣ 阅读(12) 评论(0) 推荐(0) 编辑
摘要:![image](https://img2023.cnblogs.com/blog/2417944/202305/2417944-20230530131145966-941351520.png) 为了使文本摘要适应多语言世界,先前的工作提出了多语言摘要(MLS)和跨语言摘要(CLS)。然而,由于定义 阅读全文
posted @ 2023-05-30 16:47 ︶ㄣ演戲ㄣ 阅读(59) 评论(0) 推荐(0) 编辑
摘要:![image](https://img2023.cnblogs.com/blog/2417944/202305/2417944-20230526192435910-1508194920.png) ## 1.简介 以往的大多数多语言摘要模型专注于为不同的语言训练一个模型,或者共享编码器/解码器层。 阅读全文
posted @ 2023-05-29 11:58 ︶ㄣ演戲ㄣ 阅读(57) 评论(0) 推荐(0) 编辑
摘要:![image](https://img2023.cnblogs.com/blog/2417944/202305/2417944-20230526181846905-2057653370.png) 跨语言摘要是指用一种语言(如英语)为给定文档生成不同语言(如中文)的摘要。 ## 1.早期的pipel 阅读全文
posted @ 2023-05-26 19:18 ︶ㄣ演戲ㄣ 阅读(135) 评论(0) 推荐(0) 编辑
摘要:## 动机 基于transformer的预训练模型由于其二次复杂性,不能处理长序列。虽然提出了很多高效的transformer变体,但通常需要从零开始进行昂贵的预训练。 本文提出了一种可以重复利用经过训练测试的短文本预训练模型的处理长序列的方法。 最近的分析(Xiong et al,2022a)表明 阅读全文
posted @ 2023-05-23 17:08 ︶ㄣ演戲ㄣ 阅读(47) 评论(0) 推荐(0) 编辑
摘要:![image](https://img2023.cnblogs.com/blog/2417944/202305/2417944-20230522212138975-2068646525.png) ![image](https://img2023.cnblogs.com/blog/2417944/2 阅读全文
posted @ 2023-05-22 21:56 ︶ㄣ演戲ㄣ 阅读(6) 评论(0) 推荐(0) 编辑
摘要:DIALOGLM: Pre-trained Model for Long Dialogue Understanding and Summarization DIALOGLM,是一种用于长对话理解和总结的预训练encoder2decoder模型。 1.方法 预训练任务:基于窗口的去噪和五种对话噪声 1 阅读全文
posted @ 2023-05-10 16:02 ︶ㄣ演戲ㄣ 阅读(84) 评论(0) 推荐(0) 编辑
摘要:代码:https://github.com/facebookresearch/bart_ls 论文:https://arxiv.org/abs/2209.10052 我们的主要发现总结如下: 1)在全局令牌和滑动窗口关注等长期机制中,我们发现简单的池增强块attention是各种任务的最有效选择。 阅读全文
posted @ 2023-04-22 22:11 ︶ㄣ演戲ㄣ 阅读(303) 评论(0) 推荐(0) 编辑
摘要:论文:https://arxiv.org/pdf/1910.13461.pdf 模型架构 BART-base使用了6层的encoder和decoder, BART-large使用了12层的encoder和decoder。 BART架构与BERT密切相关。有以下区别: 解码器的每一层都额外地在编码器的 阅读全文
posted @ 2023-04-21 21:14 ︶ㄣ演戲ㄣ 阅读(591) 评论(0) 推荐(0) 编辑
摘要:简介 事实上,当使用预训练的模型生成摘要时,我们实际上一直在试图找出如何使用文档和模型的先验生成正确的摘要。如果模型的先验是正确的,或者输入文档可以有效地影响摘要生成,那么生成的摘要将是正确的,相反,摘要将与原始文本不一致。 因此,将知识添加到模型中以引导其生成正确摘要的问题可以转化为如何在文档摘要 阅读全文
posted @ 2023-04-11 17:59 ︶ㄣ演戲ㄣ 阅读(612) 评论(0) 推荐(0) 编辑
摘要:摘要 目前的摘要系统产生的一般摘要与用户的偏好和期望无关。为了解决这个问题,我们提出了CTRLsum,一个新的可控摘要框架。我们的方法使用户能够通过一组关键字或描述性提示的文本输入与摘要系统交互,从而控制生成摘要的多个方面。 介绍 通常,抽象摘要方法将文档作为输入,并生成一个通用摘要,以涵盖模型识别 阅读全文
posted @ 2023-04-06 21:16 ︶ㄣ演戲ㄣ 阅读(58) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示