随笔档案「2024年7月」 - 幻影星全能的木豆

┭┮﹏┭┮

摘要：目录其他注意力PagedAttentionmemory sharingPagedAttention原理S2-AttnMulti-Head AttentionCrossAttentionCross-Attention VS Self-AttentionCross-Attention算法过拟合的表现有哪阅读全文

posted @ 2024-07-27 21:16 幻影星全能的木豆阅读(673) 评论(0) 推荐(1)

力扣-图

摘要：目录图200-岛屿数量-中等130-被围绕的区域-中等133-克隆图-中等399-除法求值-中等-反复看207-课程表-中等210-课程表 II-中等909-蛇梯棋-中等-变态433-最小基因变化-中等-BT127-单词接龙-中等208-实现 Trie(前缀树)-中等212-单词搜索-困难211-添阅读全文

posted @ 2024-07-24 22:55 幻影星全能的木豆阅读(72) 评论(0) 推荐(0)

FlashAttention全解

摘要：目录LLM大模型训练加速利器FlashAttention详解一、FlashAttention1.1 硬件基础1.2 FlashAttention 核心思想1.3 计算前提1.4 FlashAttention 算法二、FlashAttention-22.1 硬件特性2.2 标准的注意力实现2.3 Fl 阅读全文

posted @ 2024-07-24 21:23 幻影星全能的木豆阅读(1956) 评论(0) 推荐(1)

DeepSpeed x MiniGPT4Qwen

摘要：# 关于DeepSpeed的尝试知乎博客地址： https://zhuanlan.zhihu.com/p/673359684 ## 参考 Repo：https://github.com/microsoft/DeepSpeedExamples https://github.com/microsoft 阅读全文

posted @ 2024-07-23 23:48 幻影星全能的木豆阅读(355) 评论(0) 推荐(0)

力扣-动态规划全解

摘要：目录动态规划斐波那契数列-EASY爬楼梯-EASY使用最小花费爬楼梯-EASY不同路径-Middle不同路径II-Middle不同路径 III-HARD整数拆分-MID*不同的二叉搜索树-MID背包问题-理论基础分割等和子集-EASY最后一块石头的重量 II-MID目标和-MID *一和零-MID* 阅读全文

posted @ 2024-07-22 11:57 幻影星全能的木豆阅读(153) 评论(0) 推荐(0)

LAVIS库学习及MiniGPT4-Qwen中的实现，代码部分待精简总结

摘要：目录LAVIS库一、lavis库介绍二、体验示例Image CaptioningVisual question answering (VQA)Unified Feature Extraction Interface加载数据集在任务数据集上评估预训练模型微调 BLIP在COCO-Captioning数阅读全文

posted @ 2024-07-21 21:08 幻影星全能的木豆阅读(1070) 评论(0) 推荐(0)

强化学习入门

摘要：原文：https://blog.csdn.net/v_JULY_v/article/details/128965854 目录强化学习极简入门：通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO第一部分 RL基础：什么是RL与MRP、MDP1.1 入门强化学习所需掌握的基本概念1.1.1 什么阅读全文

posted @ 2024-07-20 16:08 幻影星全能的木豆阅读(318) 评论(0) 推荐(0)

Llama系模型总结

摘要：Llama3 学习链接 https://blog.csdn.net/v_JULY_v/article/details/137955982 就不易理解的内容进一步剖析对Llama系模型进行汇总目录一、LLama11. LLama 1 简介2. 模型架构2.1 RMSNorm2.2 SwiGLU替代阅读全文

posted @ 2024-07-19 22:04 幻影星全能的木豆阅读(678) 评论(0) 推荐(0)

万字长文多模态LLM进展

摘要：目录万字长文总结多模态大模型最新进展😊Flamingo1. Visual processing and the Perceiver Resampler2. GATED XATTN-DENSE details3. Multi-visual input support4. 训练细节😃BLIP-21. 阅读全文

posted @ 2024-07-19 00:28 幻影星全能的木豆阅读(815) 评论(0) 推荐(0)

完整的多模态LLM的训练流程

摘要：目录一、模型结构选择二、数据预处理三、模型预训练四、模型评估五、使模型和人类对齐六、LLM融合多模态6.0 多模态LLM架构6.1 一阶段预训练6.2 二阶段微调6.2.1 构造图像-指令遵循数据集6.2.2 训练方式6.2.3 质量评估6.3 链接外部工具6.3.1 构造<指令, API>数据6. 阅读全文

posted @ 2024-07-18 23:04 幻影星全能的木豆阅读(2375) 评论(0) 推荐(1)

超长上下文扩展：LongLoRA & LongQLoRA

摘要：学习链接 https://blog.csdn.net/v_JULY_v/article/details/135375799 目录从LongLoRA到LongQLoRA(含源码剖析)：超长上下文大模型的高效微调方法第一部分 LongLora：超长上下文大模型的高效微调方法1.1 从PI、LoRA到Lo 阅读全文

posted @ 2024-07-18 14:19 幻影星全能的木豆阅读(554) 评论(0) 推荐(0)

大模型长度扩展：直接外推, PI, NTK-aware, NTK-by-parts, Dynamic NTK, ALiBi, YaRN, S2-Attention

摘要：目录第一部分背景知识：从进制表示谈到直接外推、线性内插、进制转换1.1 从进制表示到直接外推1.1.1 进制表示1.1.2 直接外推1.2 从线性内插到进制转换1.2.1 线性内插1.2.2 进制转换第二部分从RoPE、直接外推到位置内插Position Interpolation2.1 旋转位阅读全文

posted @ 2024-07-18 11:40 幻影星全能的木豆阅读(4098) 评论(0) 推荐(3)

RoPE旋转位置编码代码实现梳理

摘要：RoPE 流程总结 & RoPE介绍通过绝对位置编码起到相对位置编码的效果，寻找一个函数\(f, g\)，使得 \(<f_{q}\left(x_{m}, m\right), f_{k}\left(x_{n}, n\right)>=g\left(x_{m}, x_{n}, m-n\right)\) 阅读全文

posted @ 2024-07-17 15:53 幻影星全能的木豆阅读(1698) 评论(0) 推荐(0)

面试准备【LLM】

摘要：目录其他注意力过拟合的表现有哪些？BN 训练和测试的区别在哪里？梯度下降的公式？反向传播优化器 & Adam均方误差损失交叉熵损失梯度消失问题梯度爆炸问题权重正则化过拟合分词器BERT掩码语言建模 (MLM)下一个句子预测 Next Sentence Prediction(NSP)BERT微调BER 阅读全文

posted @ 2024-07-15 19:15 幻影星全能的木豆阅读(289) 评论(1) 推荐(1)

MetaGPT-main-源码学习

摘要：学习最新版本的MetaGPT官方教程(v0.8.1 maybe) 学习教程：https://docs.deepwisdom.ai/main/zh/guide/tutorials/concepts.html v0.8.1 改动(相比v0.4) 智能体入门 1.）在《智能体入门》章节，v0.8.1版本在阅读全文

posted @ 2024-07-11 21:52 幻影星全能的木豆阅读(618) 评论(0) 推荐(0)

MetaGPT-v0.4-源码学习

摘要：撰写中阅读全文

posted @ 2024-07-11 21:50 幻影星全能的木豆阅读(45) 评论(0) 推荐(0)

AutoGPT-v0.1.0-源码学习

摘要：AutoGPT介绍 AutoGPT：单智能体，一个prompt驱动的调用很多工具安装v0.1.0版本，全python项目，安装简单，便于查看源码学习核心思想。项目地址：https://github.com/Significant-Gravitas/AutoGPT/tree/v0.1.0 Auto 阅读全文

posted @ 2024-07-11 21:42 幻影星全能的木豆阅读(224) 评论(0) 推荐(0)

mudou

07 2024 档案

公告