CV技术指南（公众号）

2024年5月18日

摘要：前言本文介绍了一些Transformers常用的加速策略。本文转载自Deephub Imba 仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV方向的准研究生们，未来三年如何度过？招聘高光谱图像、语义分割、阅读全文

posted @ 2024-05-18 11:55 CV技术指南（公众号）阅读(48) 评论(0) 推荐(0) 编辑

RepVGG-GELAN | 融合 VGG、ShuffleNet 与 YOLO 图像检测的准确性及效率再上一层！

摘要：前言基于YOLO的目标检测算法在速度和准确性之间取得了显著的平衡。然而，它们在脑肿瘤检测中的应用仍然未被充分探索。本研究提出了RepVGG-GELAN，这是一种新型的YOLO架构，通过集成RepVGG，一种重新参数化的卷积方法，特别关注于医学图像中的脑肿瘤检测。RepVGG-GELAN利用RepV 阅读全文

posted @ 2024-05-18 11:52 CV技术指南（公众号）阅读(206) 评论(0) 推荐(0) 编辑

2024年5月16日

信息融合是Occupancy任务必要的吗？工业界是怎么做的？

摘要：前言最近OCC的综述很多，这两天arxiv上又挂出来一篇，从信息融合的角度全面回顾了占用网络的相关工作，值得一看！本文转载自自动驾驶之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV方向的准研究生们，未阅读全文

posted @ 2024-05-16 22:59 CV技术指南（公众号）阅读(150) 评论(0) 推荐(0) 编辑

Transformers 加速的一些常用技巧

摘要：前言本文介绍了一些Transformers常用的加速策略。本文转载自Deephub Imba 仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV方向的准研究生们，未来三年如何度过？招聘高光谱图像、语义分割、阅读全文

posted @ 2024-05-16 22:55 CV技术指南（公众号）阅读(110) 评论(0) 推荐(0) 编辑

2024年5月14日

BiTCN：基于卷积网络的多元时间序列预测

摘要：前言本文将详细介绍了BiTCN，这是2023年3月在《Parameter-efficient deep probabilistic forecasting》一文中提出的模型。通过利用两个时间卷积网络(TCN)，该模型可以编码过去和未来的协变量，同时保持计算效率。作者：Marco Peixeiro 阅读全文

posted @ 2024-05-14 18:15 CV技术指南（公众号）阅读(223) 评论(0) 推荐(0) 编辑

LSTM卷土重来！xLSTM：一举超越Mamba、Transformer！

摘要：前言 LSTM：这次重生，我要夺回 Transformer 拿走的一切。本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV方向的准研究生们，未来三年如何度过？招聘高光谱图像、语义分割、dif 阅读全文

posted @ 2024-05-14 18:08 CV技术指南（公众号）阅读(800) 评论(0) 推荐(0) 编辑

ICML 2024 | 文生图新SOTA！Pika北大斯坦福联合推出RPG：多模态助力解决文生图两大难题

摘要：前言近日，北大、斯坦福、以及Pika Labs发布了新的开源文生图框架，利用多模态LLM的能力成功解决文生图两大难题，表现超越SDXL和DALL·E 3。本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招阅读全文

posted @ 2024-05-14 11:11 CV技术指南（公众号）阅读(102) 评论(0) 推荐(0) 编辑

2024年5月7日

CVPR 2024 | 字节提出视觉基础模型：ViTamin，实现多项SOTA！

摘要：前言视觉语言模型屡屡出现新突破，但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin，专为视觉语言时代设计。本文转载自量子位（QbitAI）仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。阅读全文

posted @ 2024-05-07 22:33 CV技术指南（公众号）阅读(837) 评论(0) 推荐(0) 编辑

2024年3月8日

CVPR2024 | Point Transformer V3: 更简单、更快、更强！

摘要：前言本文没有动机在注意力机制内寻求创新。相反，它专注于在点云处理的背景下克服现有的准确性和效率之间的权衡，利用scale的力量。从3D大规模表示学习的最新进展中汲取灵感，我们认识到模型性能更多地受到规模的影响，而不是复杂设计的影响。因此，本文提出了Point TransformerV3（PTv3）阅读全文

posted @ 2024-03-08 16:14 CV技术指南（公众号）阅读(1088) 评论(0) 推荐(0) 编辑

LLM 加速技巧：Muti Query Attention

摘要：前言 MQA 是 19 年提出的一种新的 Attention 机制，其能够在保证模型效果的同时加快 decoder 生成 token 的速度。在大语言模型时代被广泛使用，很多LLM都采用了MQA，如Falcon、PaLM、StarCoder等。本文转载自Deephub Imba 作者：Floria 阅读全文

posted @ 2024-03-08 16:12 CV技术指南（公众号）阅读(193) 评论(0) 推荐(0) 编辑

公告