随笔分类 - 大语言模型
摘要:文本生成策略 文本生成对于许多 NLP 任务至关重要,例如开放式文本生成、摘要、翻译和 更多。它还在各种混合模态应用程序中发挥作用,这些应用程序将文本作为输出,例如语音到文本 以及 vision-to-text。一些可以生成文本的模型包括 GPT2、XLNet、OpenAI GPT、CTRL、Tra
阅读全文
摘要:title: "在 Transformers 中使用对比搜索生成可媲美人类水平的文本🤗" thumbnail: /blog/assets/115_introducing_contrastive_search/thumbnail.png authors: - user: GMFTBY transla
阅读全文
摘要:T5 (Text-to-Text Transfer Transformer) 模型是为探索迁移学习的局限性而进行的一项大规模研究(论文)的产物。它建立在 GPT、BERT 和 RoBERTa(仅举几例)模型等流行的架构之上,这些模型利用迁移学习取得了令人难以置信的成功。虽然类似 BERT 的模型可以
阅读全文
摘要:自从 T5(文本到文本传输转换器)问世以来,一直渴望尝试它,早在 2019 年 10 月(已经有几个月了)。我弄乱了几次来自 Google 的开源代码,但我从未设法让它正常工作。其中一些有点超出我的脑海(Tensorflow 😫),所以我想我会等待 Hugging Face 来救援!与往常一样,T
阅读全文
摘要:一、概述 T5 使用常规交叉熵损失(与任何语言模型一样)。 假设您正在微调 T5 以进行翻译,并且您有以下训练示例: * source sentence: "hello how are you" * target sentence: "salut comment ça-va" 首先,需要使用 对模型
阅读全文
摘要:1、T5微调 本笔记展示如何使用Huggingface的Transformers对T5模型进行微调,以解决不同的自然语言处理任务,使用了T5论文中提出的文本-文本方法。为了演示,我选择了3个非文本-文本问题,只是为了重申论文中所述的这种文本-文本框架有多广泛适用,以及如何在完全不改变模型的情况下用于
阅读全文
摘要:一、相关的要求 # 必需的包 airio @ git+https://github.com/google/airio#egg=airio absl-py cached_property clu @ git+https://github.com/google/CommonLoopUtils#egg=c
阅读全文