10.6.2 比较卷积神经网络、循环神经网络和自注意力

CNN怎么做序列?实际上之前已经接触过了,就是把序列当成没有高只有宽的图片而已
将书上讲的复杂度汇总如下
image

  • CNN
    • 计算复杂度:进行一次卷积计算,由于卷积层大小为k,输入有d个通道,所以复杂度为O(kd);由于序列长为n,所以计算完输出的一个通道的时间复杂度为O(kdn);由于输出有d个通道,所以时间复杂度为O(knd2)
    • 并行度:卷积核在不同空间位置(如序列中的不同时间步或图像中的不同区域)的计算是独立的,可同时进行。例如,对于一个长度为n的序列,每个位置的卷积操作可以并行处理,因此并行度与序列长度n成正比。
    • “最长路径”指的是信息从输入到输出所需经过的最大计算步骤数(也就是信息传递所经过的长度)。对于CNN来说,初始序列的长度为n,每次大小减少k,所以最长路径为O(n/k)。其实也就是感受野
  • RNN
    • 最长路径:第一个词元的信息传递到序列尾部的复杂度当然是O(n)。提一嘴,像RNN这种时序性很强的模型,记忆时间信息是很强大的,所以需要记忆时间信息的话就可以选择RNN

虽然书上说序列很长的时候自注意力计算会非常慢,但实际上我们可以用很多很多个GPU,所以计算还是很快的;而且自注意力不太会出现RNN之类的问题,所以可以在自注意力上训练长序列

posted @   最爱丁珰  阅读(27)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
历史上的今天:
2024-03-03 货币兑换
2024-03-03 序列分割
点击右上角即可分享
微信分享提示