2025 年 2月 20 日随笔档案 - deephub

2025年2月20日

Vision Transformer中的图像块嵌入详解：线性投影和二维卷积的数学原理与代码实现

摘要： Transformer 架构因其强大的通用性而备受瞩目，它能够处理文本、图像或任何类型的数据及其组合。其核心的“Attention”机制通过计算序列中每个 token 之间的自相似性，从而实现对各种类型数据的总结和生成。在 Vision Transformer 中，图像首先被分解为正方形图像块，然后阅读全文

posted @ 2025-02-20 10:58 deephub 阅读(9) 评论(0) 推荐(0) 编辑

公告

我们的网站：

提供专业的人工智能知识，涉及领域包括CVNLP和数据挖掘等

overfit深度学习

AI方向干货分享，喜欢请关注我们公众号

昵称： deephub
园龄： 4年11个月
粉丝： 10
关注： 0

+加关注

2025年2月

日

一

二

三

四

五

六

deephub

overfit深度学习

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论