Yohoc

2023年11月18日

摘要：在 14.4节中，我们在一个小的数据集上训练了一个word2vec模型，并使用它为一个输入词寻找语义相似的词。实际上，在大型语料库上预先训练的词向量可以应用于下游的自然语言处理任务，这将在后面的 15节中讨论。为了直观地演示大型语料库中预训练词向量的语义，让我们将预训练词向量应用到词的相似性和类比任阅读全文

posted @ 2023-11-18 16:25 Yohoc 阅读(31) 评论(0) 推荐(0) 编辑

自然语言处理预训练——子词嵌入

摘要：在英语中，“helps”“helped”和“helping”等单词都是同一个词“help”的变形形式。“dog”和“dogs”之间的关系与“cat”和“cats”之间的关系相同，“boy”和“boyfriend”之间的关系与“girl”和“girlfriend”之间的关系相同。在法语和西班牙语等其他阅读全文

posted @ 2023-11-18 15:49 Yohoc 阅读(17) 评论(0) 推荐(0) 编辑

2023年11月17日

自然语言处理预训练——全局向量的词嵌入

摘要：带全局语料统计的跳元模型传统的词嵌入模型（如Word2Vec、GloVe等）通常只考虑了局部上下文窗口内的单词共现信息，而没有充分利用全局语料库的统计特征。带全局预料统计的跳元模型尝试通过结合全局语料库的统计信息来提高词嵌入的表示能力，以更好地捕捉单词之间的语义和语法关系。 GloVe模型从条件阅读全文

posted @ 2023-11-17 14:14 Yohoc 阅读(25) 评论(0) 推荐(0) 编辑

自然语言处理预训练——用于预训练词嵌入的数据集

摘要：读取数据集下采样提取中心词和上下文词下面的get_centers_and_contexts函数从corpus中提取所有中心词及其上下文词。它随机采样1到max_window_size之间的整数作为上下文窗口。对于任一中心词，与其距离不超过采样上下文窗口大小的词为其上下文词。 #@save de 阅读全文

posted @ 2023-11-17 11:58 Yohoc 阅读(13) 评论(0) 推荐(0) 编辑

自然语言处理预训练——近似训练

摘要：近似训练是一种用于加速训练过程的技术。负采样负采样是在训练过程中对目标函数进行简化的一种方法。在传统的训练中，需要计算整个词汇表的概率分布，这在大规模任务中会非常耗时。负采样的思想是通过随机采样一小部分负例来近似计算全局的目标函数。具体来说，对于每个正例（例如一个正确的词对应的上下文），从词汇表阅读全文

posted @ 2023-11-17 11:28 Yohoc 阅读(16) 评论(0) 推荐(0) 编辑

自然语言处理预训练——词嵌入(word2vec)

摘要：自然语言是用来表达人脑思维的复杂系统。在这个系统中，词是意义的基本单元。顾名思义，词向量是用于表示单词意义的向量，并且还可以被认为是单词的特征向量或表示。将单词映射到实向量的技术称为词嵌入。近年来，词嵌入逐渐成为自然语言处理的基础知识。为何独热向量是一个糟糕的选择？自监督的word2v 阅读全文

posted @ 2023-11-17 10:51 Yohoc 阅读(95) 评论(0) 推荐(0) 编辑

2023年11月16日

机器学习——Transformer

摘要： 10.6.2节中比较了卷积神经网络（CNN）、循环神经网络（RNN）和自注意力（self-attention）。值得注意的是，自注意力同时具有并行计算和最短的最大路径长度这两个优势。因此，使用自注意力来设计深度架构是很有吸引力的。对比之前仍然依赖循环神经网络实现输入表示的自注意力模型 (Cheng 阅读全文

posted @ 2023-11-16 18:02 Yohoc 阅读(62) 评论(0) 推荐(0) 编辑

机器学习——自注意力与位置编码

摘要：在深度学习中，经常使用卷积神经网络（CNN）或循环神经网络（RNN）对序列进行编码。想象一下，有了注意力机制之后，我们将词元序列输入注意力池化中，以便同一组词元同时充当查询、键和值。具体来说，每个查询都会关注所有的键－值对并生成一个注意力输出。由于查询、键和值来自同一组输入，因此被称为自注阅读全文

posted @ 2023-11-16 17:06 Yohoc 阅读(97) 评论(0) 推荐(0) 编辑

机器学习——多头注意力

摘要：在实践中，当给定相同的查询、键和值的集合时，我们希望模型可以基于相同的注意力机制学习到不同的行为，然后将不同的行为作为知识组合起来，捕获序列内各种范围的依赖关系（例如，短距离依赖和长距离依赖关系）。因此，允许注意力机制组合使用查询、键和值的不同子空间表示（representation s 阅读全文

posted @ 2023-11-16 16:11 Yohoc 阅读(23) 评论(0) 推荐(0) 编辑

机器学习——Bahdanau 注意力

摘要： 9.7节中探讨了机器翻译问题：通过设计一个基于两个循环神经网络的编码器-解码器架构，用于序列到序列学习。具体来说，循环神经网络编码器将长度可变的序列转换为固定形状的上下文变量，然后循环神经网络解码器根据生成的词元和上下文变量按词元生成输出（目标）序列词元。然而，即使并非所有输入（源）词元阅读全文

posted @ 2023-11-16 13:26 Yohoc 阅读(49) 评论(0) 推荐(0) 编辑

公告