摘要: 文章目录 1. 简介2. 多头注意力3. 有掩码的多头注意力4. 基于位置的前馈网络5. 层归一化6. 信息传递7. 预测 1. 简介 基于编码器-解码器架构来处理序列对跟使用注意力的seq2seq不同,Transformer是纯基于注意力 2. 多头注意力 对同一key,value,query,希 阅读全文
posted @ 2023-10-31 16:30 mango1698 阅读(25) 评论(0) 推荐(0) 编辑
摘要: 文章目录 1. 简介2. 非参数化注意力池化层3. 参数化的注意力机制4. 注意力分数5. 自注意力和位置编码 1. 简介 心理学 动物需要在复杂环境下有效关注值得注意的点心理学框架:人类根据随意(有意识)线索和不随意(无意识)线索选择注意点 注意力机制是一种在深度学习领域中的重要技术,尤其在自然语 阅读全文
posted @ 2023-10-31 15:41 mango1698 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 循环神经网络(Rerrent Neural Network,RNN)是神经网络的一种,类似的还有深度神经网络(DNN)、卷积神经网路(CNN)、生成对抗网络(GAN)等。**RNN对具有时序特性的数据非常有成效,他能挖掘数据中的时序信息以及语义信息。**利用RNN的这种能力,使深度学习模型在解决语音 阅读全文
posted @ 2023-10-31 13:47 mango1698 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 自然语言处理的输入输出基本上都是序列,序列问题是自然语言处理最本质的问题。 序列模型:就是输入输出均为序列数据的模型,序列模型将输入序列数据转换为目标序列数据。 序列数据 实际上很多数据是有时序结构的 电影的评价随时间变化而变化 拿奖后评分上升,直到奖项被忘记看了很多好电影后,人们的期望变高季节性: 阅读全文
posted @ 2023-10-31 13:13 mango1698 阅读(14) 评论(0) 推荐(0) 编辑