脂环 - 博客园

2024年12月15日

摘要：王树森—深度强化学习基础 1 基本概念概率论随机变量：值取决于随机事件的结果大写字母\(X\)表示随机变量，小写字母\(x\)表示随机变量的观测值概率密度函数（Probability Density Function, PDF）：随机变量在某个确定的取值点附近的可能性连续 or 离散期望阅读全文

posted @ 2024-12-15 16:41 脂环阅读(44) 评论(0) 推荐(0) 编辑

2024年12月14日

Fast Transformer Decoding: One Write-Head is All You Need论文阅读笔记（MQA）

摘要： Motivation & Abs 增量推理对于MHA是非常慢的（难以并行），因为重复加载大的键/值会增大内存带宽的开销。为此作者提出了multi-query attention（MQA），其中不同注意力头共享相同的键和值，减小了增量解码的内存带宽要求。MQA可以大幅提升解码的速度，同时推理质量仅有略阅读全文

posted @ 2024-12-14 16:30 脂环阅读(15) 评论(0) 推荐(0) 编辑

2024年12月12日

RoPE论文阅读笔记

摘要：复数几何意义：https://zhuanlan.zhihu.com/p/646598747 https://zhuanlan.zhihu.com/p/359502624 Motivation & Abs 作者提出了旋转位置编码（ Rotary Position Embedding, RoPE）的新阅读全文

posted @ 2024-12-12 14:34 脂环阅读(31) 评论(0) 推荐(0) 编辑

2024年12月11日

Qwen2-VL论文阅读笔记

摘要： Motivation & Abs 之前的MLLM通常使用预定义的固定分辨率，Qwen2-VL引入了朴素动态分辨率，使模型能够生成更高效、更准确的视觉表示，与人类感知过程紧密结合。同时，模型还使用了多模态旋转位置编码（M-RoPE），促进了不同模态信息的有效融合。同时，作者使用了统一的范式处理图像和视阅读全文

posted @ 2024-12-11 14:08 脂环阅读(83) 评论(0) 推荐(0) 编辑

2024年12月10日

SigLIP论文阅读笔记

摘要： Motivaton & Abs 作者提出了一个简单的成对sigmoid损失以用于图像文本预训练，其仅作用于图像-文本对，不需要获取global view并进行归一化。sigmoid 损失同时允许进一步扩大 batch size，同时在较小的 batch size 上也表现得更好。最后，作者发现将ba 阅读全文

posted @ 2024-12-10 16:28 脂环阅读(27) 评论(0) 推荐(0) 编辑

2024年12月9日

Qwen-VL论文阅读笔记

摘要： Motivation & Abs Qwen-VL系列模型，通过设计（1）视觉感受器；（2）输入输出接口；（3）3阶段训练流水线；（4）多语言多模态高质量语料库从而赋予模型视觉感受的能力。除了传统的image description以及VQA任务外，作者还通过对齐image-caption-box从而阅读全文

posted @ 2024-12-09 17:23 脂环阅读(25) 评论(0) 推荐(0) 编辑

2024年9月5日

Text Augmented Spatial-aware Zero-shot Referring Image Segmentation论文阅读笔记(EMNLP23 Findings)

摘要： Motivation & Method 关注的任务为zero-shot referring image segmentation，模型无法获得pixel-level的分割标注。之前的方法通常使用预训练的多模态模型如CLIP，然而CLIP使用图像文本对进行训练，难以做到image local patc 阅读全文

posted @ 2024-09-05 01:04 脂环阅读(14) 评论(0) 推荐(0) 编辑

2024年8月1日

Pixel Aligned Language Models论文阅读笔记

摘要： Motivation & Abs 近年来，大语言模型在视觉方面取得了极大的进步，但其如何完成定位任务（如word grounding等）仍然不清楚。本文旨在设计一种模型能够将一系列点/边界框作为输入或者输出。当模型接受定位信息作为输入时，可以进行以定位为condition的captioning。当生阅读全文

posted @ 2024-08-01 17:12 脂环阅读(24) 评论(0) 推荐(0) 编辑

2024年7月27日

ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference论文阅读笔记

摘要： Motivation & Abs 文章关注的任务为用VLM（如CLIP）做开放词汇分割，motivation主要来自于作者的一个观察：分割图中的噪声主要来自于残差连接，这会导致在文本-图像预训练更加强调全局特征，从而牺牲了局部判别能力，从而导致了分割结果中的噪声。为此作者提出了ClearCLIP，对阅读全文

posted @ 2024-07-27 16:37 脂环阅读(160) 评论(0) 推荐(0) 编辑

2024年6月19日

GSVA: Generalized Segmentation via Multimodal Large Language Models论文阅读笔记

摘要： Motivation & Abs Generalized Referring Expression Segmentation (GRES)：相比于原始的RES任务，一个文本描述里可能出现多个需要分割的物体，或者没有需要分割的物体，难点在于建模不同实体之间复杂的空间关系，以及识别不存在的描述。现有的方阅读全文

posted @ 2024-06-19 14:27 脂环阅读(121) 评论(0) 推荐(0) 编辑

Loading

脂环

公告