摘要: 前言 本文没有动机在注意力机制内寻求创新。相反,它专注于在点云处理的背景下克服现有的准确性和效率之间的权衡,利用scale的力量。从3D大规模表示学习的最新进展中汲取灵感,我们认识到模型性能更多地受到规模的影响,而不是复杂设计的影响。因此,本文提出了Point TransformerV3(PTv3) 阅读全文
posted @ 2024-03-08 16:14 CV技术指南(公众号) 阅读(633) 评论(0) 推荐(0) 编辑
摘要: 前言 MQA 是 19 年提出的一种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder 生成 token 的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。 本文转载自Deephub Imba 作者:Floria 阅读全文
posted @ 2024-03-08 16:12 CV技术指南(公众号) 阅读(72) 评论(0) 推荐(0) 编辑