2023 年 4月随笔档案 - ︶ㄣ演戲ㄣ

长文本摘要模型的位置编码

摘要：Longformer Roberta使用绝对位置编码，最大512.为了能够适应更长的文本，Longformer添加到4096。为了利用Roberta的预训练后的权重，多次复制512位置编码。做了实验，对比随机初始化位置编码和复制位置编码，显示出复制位置编码的重要性。扩展BART的1K token 阅读全文

posted @ 2023-04-23 17:48 ︶ㄣ演戲ㄣ阅读(82) 评论(0) 推荐(0) 编辑

BART的使用

posted @ 2023-04-21 09:38 ︶ㄣ演戲ㄣ阅读(479) 评论(0) 推荐(0) 编辑

可用的摘要模型

posted @ 2023-04-14 11:09 ︶ㄣ演戲ㄣ阅读(55) 评论(0) 推荐(0) 编辑

使用LLM的问题

摘要：当前大模型的低成本实现方案：语言模型 + 指令微调数据 + 微调加速 llama + alpaca_data(Fine-tuning) + lora 语言模型: ... 指令微调数据: 在一组通过指示描述的数据集上对语言模型微调，大大提高了在未见过任务上的 Zero-Shot 能力。通过对多种任阅读全文

posted @ 2023-04-11 17:40 ︶ㄣ演戲ㄣ阅读(88) 评论(0) 推荐(0) 编辑

文本摘要热点及发展方向（？）

摘要：热点： 2019：摘要定制化的预训练模型不同场景的数据集学术论文摘要生成式摘要的事实一致性方向：模仿人撰写摘要的模式，融合抽取式和生成式摘要方法生成联合摘要基于语义层面研究进一步地深度挖掘句子级、篇章级的语义并加以利用来进一步提高文本摘要的语义一致性和可读性定制化摘要超长文本摘要最阅读全文

posted @ 2023-04-11 16:27 ︶ㄣ演戲ㄣ阅读(90) 评论(0) 推荐(0) 编辑

04 2023 档案