google的transformer模型的解释

参考这篇文章:

https://blog.csdn.net/mijiaoxiaosan/article/details/73251443

 

看了下:

最核心的如下:其最重要的创新应该就是Self-Attention的使用级联的多头attention架构。

两点:multi-head attention 和 self-attention。

 

posted @   blcblc  阅读(540)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
历史上的今天:
2017-12-02 今天看到一篇文章整理了机器学习方面的面试复习文章,不错
2016-12-02 一道题目- Find the smallest range that includes at least one number from each of the k lists
2016-12-02 求逆序对数总结 & 归并排序
2016-12-02 【转载】非常棒的算法面试类资源汇总
2016-12-02 【Todo】【读书笔记】Career Cup 150笔记
2016-12-02 【Todo】【转载】深入理解Java内存模型
2016-12-02 【Todo】Java类面试题分析
点击右上角即可分享
微信分享提示