摘要: 今天记录一下个人关于Transformer中前馈神经网络(FFN)的一点理解。 第一点,我们知道,FFN之前是有一个多头注意力机制的模块。我们可以想想一下,如果这个模块直接输出,不经过FFN层会发生什么,要知道多头注意力(MH)是没有激活函数的,那么最后只有一个结果,那就是很多头的输出就是一个极为相 阅读全文
posted @ 2022-10-30 21:04 九叶草 阅读(1690) 评论(0) 推荐(2) 编辑
摘要: 1、采用分类任务时,我们通常会采用逻辑回归算法,最关键的步骤就是将线性模型输出的实数域映射到[0, 1]表示概率分布的有效实数空间,其中Sigmoid函数刚好具有这样的功能。但是这通常只适用于二分类问题。要多多分类任务各个输出节点的输出值范围映射到[0, 1],通常可以采用softmax。 2、所谓 阅读全文
posted @ 2022-10-30 20:09 九叶草 阅读(235) 评论(0) 推荐(0) 编辑