04 2023 档案
摘要:Longformer Roberta使用绝对位置编码,最大512.为了能够适应更长的文本,Longformer添加到4096。为了利用Roberta的预训练后的权重,多次复制512位置编码。 做了实验,对比随机初始化位置编码和复制位置编码,显示出复制位置编码的重要性。 扩展BART的1K token
阅读全文
摘要:使用模型 复旦nlp——fnlp_bart_large_Chinese | 注意力头 |encoder/decoder层数 |词嵌入表示 | | | | | | 16 | 12 | 1024 | 词典使用BertTokenizer, vocab_size: 51271 在nlpcc数据集上微调模型
阅读全文
摘要:当前最流行的先进模型 huggingface社区 paperswithcode 大部分模型都是基于以下表中模型,做了数据集或其他部分的微小变动。 在近几年各种论文的对比实验中,基本对照的模型都是以下模型: |模型 | 描述 | 能否训练| | | | | | BART | 通用模型,适合做摘要任务
阅读全文
摘要:当前大模型的低成本实现方案: 语言模型 + 指令微调数据 + 微调加速 llama + alpaca_data(Fine-tuning) + lora 语言模型: ... 指令微调数据: 在一组通过指示描述的数据集上对语言模型微调,大大提高了在未见过任务上的 Zero-Shot 能力。 通过对多种任
阅读全文
摘要:热点: 2019:摘要定制化的预训练模型 不同场景的数据集 学术论文摘要 生成式摘要的事实一致性 方向: 模仿人撰写摘要的模式,融合抽取式和生成式摘要方法生成联合摘要 基于语义层面研究进一步地深度挖掘句子级、篇章级的语义并加以利用来进一步提高文本摘要的语义一致性和可读性 定制化摘要 超长文本摘要 最
阅读全文