摘要: 带全局语料统计的跳元模型 传统的词嵌入模型(如Word2Vec、GloVe等)通常只考虑了局部上下文窗口内的单词共现信息,而没有充分利用全局语料库的统计特征。带全局预料统计的跳元模型尝试通过结合全局语料库的统计信息来提高词嵌入的表示能力,以更好地捕捉单词之间的语义和语法关系。 GloVe模型 从条件 阅读全文
posted @ 2023-11-17 14:14 Yohoc 阅读(25) 评论(0) 推荐(0) 编辑
摘要: 读取数据集 下采样 提取中心词和上下文词 下面的get_centers_and_contexts函数从corpus中提取所有中心词及其上下文词。它随机采样1到max_window_size之间的整数作为上下文窗口。对于任一中心词,与其距离不超过采样上下文窗口大小的词为其上下文词。 #@save de 阅读全文
posted @ 2023-11-17 11:58 Yohoc 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 近似训练是一种用于加速训练过程的技术。 负采样 负采样是在训练过程中对目标函数进行简化的一种方法。在传统的训练中,需要计算整个词汇表的概率分布,这在大规模任务中会非常耗时。负采样的思想是通过随机采样一小部分负例来近似计算全局的目标函数。具体来说,对于每个正例(例如一个正确的词对应的上下文),从词汇表 阅读全文
posted @ 2023-11-17 11:28 Yohoc 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 自然语言是用来表达人脑思维的复杂系统。 在这个系统中,词是意义的基本单元。顾名思义, 词向量是用于表示单词意义的向量, 并且还可以被认为是单词的特征向量或表示。 将单词映射到实向量的技术称为词嵌入。 近年来,词嵌入逐渐成为自然语言处理的基础知识。 为何独热向量是一个糟糕的选择? 自监督的word2v 阅读全文
posted @ 2023-11-17 10:51 Yohoc 阅读(95) 评论(0) 推荐(0) 编辑