摘要:
今天记录一下个人关于Transformer中前馈神经网络(FFN)的一点理解。 第一点,我们知道,FFN之前是有一个多头注意力机制的模块。我们可以想想一下,如果这个模块直接输出,不经过FFN层会发生什么,要知道多头注意力(MH)是没有激活函数的,那么最后只有一个结果,那就是很多头的输出就是一个极为相 阅读全文
摘要:
1、采用分类任务时,我们通常会采用逻辑回归算法,最关键的步骤就是将线性模型输出的实数域映射到[0, 1]表示概率分布的有效实数空间,其中Sigmoid函数刚好具有这样的功能。但是这通常只适用于二分类问题。要多多分类任务各个输出节点的输出值范围映射到[0, 1],通常可以采用softmax。 2、所谓 阅读全文