摘要: 原始的BERT有两个版本,其中基本模型有1.1亿个参数,大模型有3.4亿个参数。 在预训练BERT之后,我们可以用它来表示单个文本、文本对或其中的任何词元。 在实验中,同一个词元在不同的上下文中具有不同的BERT表示。这支持BERT表示是上下文敏感的。 阅读全文
posted @ 2023-11-18 20:45 Yohoc 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 为了预训练 14.8节中实现的BERT模型,我们需要以理想的格式生成数据集,以便于两个预训练任务:遮蔽语言模型和下一句预测。一方面,最初的BERT模型是在两个庞大的图书语料库和英语维基百科(参见 14.8.5节)的合集上预训练的,但它很难吸引这本书的大多数读者。另一方面,现成的预训练BERT模型可能 阅读全文
posted @ 2023-11-18 20:44 Yohoc 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 我们已经介绍了几种用于自然语言理解的词嵌入模型。在预训练之后,输出可以被认为是一个矩阵,其中每一行都是一个表示预定义词表中词的向量。事实上,这些词嵌入模型都是与上下文无关的。让我们先来说明这个性质。 从上下文无关到上下文敏感 ELMo(Embeddings from Language Models) 阅读全文
posted @ 2023-11-18 20:07 Yohoc 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 在 14.4节中,我们在一个小的数据集上训练了一个word2vec模型,并使用它为一个输入词寻找语义相似的词。实际上,在大型语料库上预先训练的词向量可以应用于下游的自然语言处理任务,这将在后面的 15节中讨论。为了直观地演示大型语料库中预训练词向量的语义,让我们将预训练词向量应用到词的相似性和类比任 阅读全文
posted @ 2023-11-18 16:25 Yohoc 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 在英语中,“helps”“helped”和“helping”等单词都是同一个词“help”的变形形式。“dog”和“dogs”之间的关系与“cat”和“cats”之间的关系相同,“boy”和“boyfriend”之间的关系与“girl”和“girlfriend”之间的关系相同。在法语和西班牙语等其他 阅读全文
posted @ 2023-11-18 15:49 Yohoc 阅读(17) 评论(0) 推荐(0) 编辑