07 2024 档案

摘要:目录其他注意力PagedAttentionmemory sharingPagedAttention原理S2-AttnMulti-Head AttentionCrossAttentionCross-Attention VS Self-AttentionCross-Attention算法过拟合的表现有哪 阅读全文
posted @ 2024-07-27 21:16 幻影星全能的木豆 阅读(673) 评论(0) 推荐(1)
摘要:目录图200-岛屿数量-中等130-被围绕的区域-中等133-克隆图-中等399-除法求值-中等-反复看207-课程表-中等210-课程表 II-中等909-蛇梯棋-中等-变态433-最小基因变化-中等-BT127-单词接龙-中等208-实现 Trie(前缀树)-中等212-单词搜索-困难211-添 阅读全文
posted @ 2024-07-24 22:55 幻影星全能的木豆 阅读(72) 评论(0) 推荐(0)
摘要:目录LLM大模型训练加速利器FlashAttention详解一、FlashAttention1.1 硬件基础1.2 FlashAttention 核心思想1.3 计算前提1.4 FlashAttention 算法二、FlashAttention-22.1 硬件特性2.2 标准的注意力实现2.3 Fl 阅读全文
posted @ 2024-07-24 21:23 幻影星全能的木豆 阅读(1956) 评论(0) 推荐(1)
摘要:# 关于DeepSpeed的尝试 知乎博客地址: https://zhuanlan.zhihu.com/p/673359684 ## 参考 Repo:https://github.com/microsoft/DeepSpeedExamples https://github.com/microsoft 阅读全文
posted @ 2024-07-23 23:48 幻影星全能的木豆 阅读(355) 评论(0) 推荐(0)
摘要:目录动态规划斐波那契数列-EASY爬楼梯-EASY使用最小花费爬楼梯-EASY不同路径-Middle不同路径II-Middle不同路径 III-HARD整数拆分-MID*不同的二叉搜索树-MID背包问题-理论基础分割等和子集-EASY最后一块石头的重量 II-MID目标和-MID *一和零-MID* 阅读全文
posted @ 2024-07-22 11:57 幻影星全能的木豆 阅读(153) 评论(0) 推荐(0)
摘要:目录LAVIS库一、lavis库介绍二、体验示例Image CaptioningVisual question answering (VQA)Unified Feature Extraction Interface加载数据集在任务数据集上评估预训练模型微调 BLIP在COCO-Captioning数 阅读全文
posted @ 2024-07-21 21:08 幻影星全能的木豆 阅读(1070) 评论(0) 推荐(0)
摘要:原文:https://blog.csdn.net/v_JULY_v/article/details/128965854 目录强化学习极简入门:通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO第一部分 RL基础:什么是RL与MRP、MDP1.1 入门强化学习所需掌握的基本概念1.1.1 什么 阅读全文
posted @ 2024-07-20 16:08 幻影星全能的木豆 阅读(318) 评论(0) 推荐(0)
摘要:Llama3 学习链接 https://blog.csdn.net/v_JULY_v/article/details/137955982 就不易理解的内容进一步剖析 对Llama系模型进行汇总 目录一、LLama11. LLama 1 简介2. 模型架构2.1 RMSNorm2.2 SwiGLU替代 阅读全文
posted @ 2024-07-19 22:04 幻影星全能的木豆 阅读(678) 评论(0) 推荐(0)
摘要:目录万字长文总结多模态大模型最新进展😊Flamingo1. Visual processing and the Perceiver Resampler2. GATED XATTN-DENSE details3. Multi-visual input support4. 训练细节😃BLIP-21. 阅读全文
posted @ 2024-07-19 00:28 幻影星全能的木豆 阅读(815) 评论(0) 推荐(0)
摘要:目录一、模型结构选择二、数据预处理三、模型预训练四、模型评估五、使模型和人类对齐六、LLM融合多模态6.0 多模态LLM架构6.1 一阶段预训练6.2 二阶段微调6.2.1 构造图像-指令遵循数据集6.2.2 训练方式6.2.3 质量评估6.3 链接外部工具6.3.1 构造<指令, API>数据6. 阅读全文
posted @ 2024-07-18 23:04 幻影星全能的木豆 阅读(2375) 评论(0) 推荐(1)
摘要:学习链接 https://blog.csdn.net/v_JULY_v/article/details/135375799 目录从LongLoRA到LongQLoRA(含源码剖析):超长上下文大模型的高效微调方法第一部分 LongLora:超长上下文大模型的高效微调方法1.1 从PI、LoRA到Lo 阅读全文
posted @ 2024-07-18 14:19 幻影星全能的木豆 阅读(554) 评论(0) 推荐(0)
摘要:目录第一部分 背景知识:从进制表示谈到直接外推、线性内插、进制转换1.1 从进制表示到直接外推1.1.1 进制表示1.1.2 直接外推1.2 从线性内插到进制转换1.2.1 线性内插1.2.2 进制转换第二部分 从RoPE、直接外推到位置内插Position Interpolation2.1 旋转位 阅读全文
posted @ 2024-07-18 11:40 幻影星全能的木豆 阅读(4098) 评论(0) 推荐(3)
摘要:RoPE 流程总结 & RoPE介绍 通过绝对位置编码起到相对位置编码的效果,寻找一个函数\(f, g\),使得 \(<f_{q}\left(x_{m}, m\right), f_{k}\left(x_{n}, n\right)>=g\left(x_{m}, x_{n}, m-n\right)\) 阅读全文
posted @ 2024-07-17 15:53 幻影星全能的木豆 阅读(1698) 评论(0) 推荐(0)
摘要:目录其他注意力过拟合的表现有哪些?BN 训练和测试的区别在哪里?梯度下降的公式?反向传播优化器 & Adam均方误差损失交叉熵损失梯度消失问题梯度爆炸问题权重正则化过拟合分词器BERT掩码语言建模 (MLM)下一个句子预测 Next Sentence Prediction(NSP)BERT微调BER 阅读全文
posted @ 2024-07-15 19:15 幻影星全能的木豆 阅读(289) 评论(1) 推荐(1)
摘要:学习最新版本的MetaGPT官方教程(v0.8.1 maybe) 学习教程:https://docs.deepwisdom.ai/main/zh/guide/tutorials/concepts.html v0.8.1 改动(相比v0.4) 智能体入门 1.)在《智能体入门》章节,v0.8.1版本在 阅读全文
posted @ 2024-07-11 21:52 幻影星全能的木豆 阅读(618) 评论(0) 推荐(0)
摘要:撰写中 阅读全文
posted @ 2024-07-11 21:50 幻影星全能的木豆 阅读(45) 评论(0) 推荐(0)
摘要:AutoGPT介绍 AutoGPT:单智能体,一个prompt驱动的调用很多工具 安装v0.1.0版本,全python项目,安装简单,便于查看源码学习核心思想。 项目地址:https://github.com/Significant-Gravitas/AutoGPT/tree/v0.1.0 Auto 阅读全文
posted @ 2024-07-11 21:42 幻影星全能的木豆 阅读(224) 评论(0) 推荐(0)