AI - 随笔分类 - 岁

摘要：快速部署大模型阅读全文

posted @ 2025-07-28 14:31 岁阅读(154) 评论(0) 推荐(0)

摘要：MLA的公式放在这里： \[\begin{align*} \mathbf{c}_t^{KV} &= W^{DKV}\mathbf{h}_t &(1) \\ [\mathbf{k}_{t,1}^C, \mathbf{k}_{t,2}^C, ..., \mathbf{k}_{t,n_h}^C] = \m 阅读全文

posted @ 2025-03-07 16:35 岁阅读(150) 评论(0) 推荐(0)

有关梯度和反向传播的思考

摘要：反向传播是用来计算损失函数（Loss Function, $L$）关于网络中各个参数的梯度的过程。这些梯度用于更新参数，从而降低损失函数的值，使网络性能更好。 $\nabla_y L$: 这是损失函数 $L$ 关于 $y$ 的梯度。$y$ 是前向传播中激活函数的输出。 \(\fr 阅读全文

posted @ 2025-02-26 11:34 岁阅读(229) 评论(0) 推荐(0)

为什么Transformer模型使用Layer Normalization而不是Batch Normalization

摘要：我觉得最重要的有两点：处理变长序列的稳定性：BN是在不同样本的同一维度做归一化，因为在seq2seq的场景中，样本数量不是固定的/输入序列是变长的，使用BN会导致不稳定。LN是在同一样本的不同维度做归一化，这样会更稳定。小批量下的鲁棒性：Batch Norm的性能受批量大小影响显著，小批量可能导阅读全文

posted @ 2025-01-30 13:10 岁阅读(437) 评论(0) 推荐(0)

AlphaStar中间LSTM Core层的核心问题

摘要：对于AlphaStar 中间的LSTM部分有不解的地方，这里对一些问题和细节做出了解释阅读全文

posted @ 2024-12-18 18:02 岁阅读(196) 评论(0) 推荐(0)

matplotlib中文乱码（linux中没有中文字体）

摘要：在docker或linux中一劳永逸解决matplotlib中文显示问题安装 mplfonts的安装方法是pip: $ pip install -U mplfonts 使用安装好mplfonts之后，需要有一个初始化的配置过程在终端执行$ mplfonts init即可。测试 import 阅读全文

posted @ 2024-05-16 09:37 岁阅读(1193) 评论(0) 推荐(0)

LangChain 进阶历史对话管理

摘要：自动历史管理前面的示例将消息显式地传递给链。这是一种完全可接受的方法，但确实需要外部管理新消息。LangChain还包括一个名为RunnableWithMessageHistory的包裹器，能够自动处理这个过程。为了展示其工作原理，我们稍微修改上面的提示，增加一个最终输入变量，该变量在聊天历史记阅读全文

posted @ 2024-05-15 17:55 岁阅读(2222) 评论(0) 推荐(1)

LangChain 流式输出

摘要：from langchain_core.output_parsers import StrOutputParser from langchain_core.runnables import RunnableParallel from langchain_openai import ChatOpenA 阅读全文

posted @ 2024-05-15 17:51 岁阅读(758) 评论(0) 推荐(0)

LangChain+Qwen1.5MoE国内开源大模型调用知识库QuickStart

摘要：xinference+Qwen1.5MoE+LangChain，如何让国内开源大模型输出我们想要的知识阅读全文

posted @ 2024-04-18 18:25 岁阅读(2341) 评论(0) 推荐(0)

LangChain SQL介绍以及使用Qwen1.5执行SQL查询教程

摘要：LangChain SQL 该模块可以让我们向LLM提问时从数据库中查询数据并做出回答。架构 SQL chain和agent的高层抽象架构：问题转查询SQL：使用LLM将用户输入转成SQL查询执行SQL查询：执行SQL语句回答问题：LLM根据数据库查询结果返回回答内容环境安装安装必要环境阅读全文

posted @ 2024-03-29 18:11 岁阅读(2538) 评论(0) 推荐(0)

大语言模型资料汇总

摘要：社区/模型下载 ModelScope 魔搭社区 Hugging Face 微调 https://github.com/modelscope/swift https://github.com/hiyouga/LLaMA-Factory https://huggingface.co/docs/peft/ 阅读全文

posted @ 2024-03-24 22:06 岁阅读(175) 评论(0) 推荐(0)

NVIDIA显卡资源监控

摘要：linux、win 资源监控工具，可以监控显存和占用率阅读全文

posted @ 2024-03-15 09:59 岁阅读(1034) 评论(0) 推荐(0)

Swift微调命令参数

摘要：modelscope的swift微调框架命令行参数阅读全文

posted @ 2024-03-14 15:21 岁阅读(8596) 评论(0) 推荐(1)

大模型下载

摘要：modelscope大模型下载阅读全文

posted @ 2024-02-29 13:57 岁阅读(329) 评论(0) 推荐(0)

多模态大模型数据集

摘要：用于图片内容识别 https://www.kaggle.com/datasets/williamscott701/memotion-dataset-7k https://huggingface.co/datasets/sizhkhy/passports https://huggingface.co/ 阅读全文

posted @ 2024-02-28 13:52 岁阅读(151) 评论(0) 推荐(0)

远程GPU服务器环境配置

摘要：GPU服务器环境深度学习、大模型环境搭建、miniconda 阅读全文

posted @ 2024-02-27 14:39 岁阅读(357) 评论(0) 推荐(0)

岁

随笔分类 - AI

公告