上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 234 下一页

2025年2月11日

LlaMA模型架构,什么是LlaMA?

摘要: 1)什么是LlaMA?LLaMA的全称是Large Language Model Meta AI,直译为“大语言模型元AI”。由于“Llama”在西班牙语中意为“羊驼”,因此社区也将其昵称为羊驼系模型。 LLaMA于2023年2月由Meta AI发布,是该系列的初代模型。随后,Meta AI又相继推 阅读全文

posted @ 2025-02-11 11:25 ExplorerMan 阅读(693) 评论(0) 推荐(0)

2025年2月10日

多头潜在注意力MLA

摘要: 多头潜在注意力(Multi-Head Latent Attention,MLA)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列或多模态数据时的效率和性能。以下是对其的简单形象解释: MLA的核心思想 MLA结合了多头注意力(MHA)和潜在表示学习。它通过将高维输入映射到低维潜 阅读全文

posted @ 2025-02-10 19:54 ExplorerMan 阅读(756) 评论(0) 推荐(0)

大模型MoE

摘要: MoE(Mixture of Experts,混合专家模型)是一种新型的大模型架构,其核心思想是“术业有专攻”,通过多个“专家”模型共同协作来处理复杂的任务。以下是一个简单形象的解释: 1. MoE的核心组成 专家(Experts):MoE模型由多个独立的子模型组成,每个子模型被称为一个“专家”。这 阅读全文

posted @ 2025-02-10 19:49 ExplorerMan 阅读(235) 评论(0) 推荐(0)

大模型Attention

摘要: 用一个简单形象的例子来理解大模型中的Attention(注意力机制)。 1. 什么是Attention? 想象一下,你正在读一篇很长的文章。文章里有很多内容,但你可能只对其中一部分特别感兴趣,比如一个关键的情节或者一个重要的观点。你的大脑会自然地把注意力集中在这些重要的部分,而对其他部分的关注度会相 阅读全文

posted @ 2025-02-10 19:43 ExplorerMan 阅读(156) 评论(0) 推荐(0)

统一视角看 Attention 与 MoE

摘要: 注: 本文 原始 idea 来自于香港大学(HKU) 黄毅老师 (主页: Ngai Wong), 与本人共同讨论, 形成此文. Update: 简易版报告在我主页, 可以访问 https://wutaiqiang.github.io/pdf/Unified_view_for_Attention_an 阅读全文

posted @ 2025-02-10 19:34 ExplorerMan 阅读(161) 评论(0) 推荐(0)

2025年1月21日

Langchain(一) -使用langchain快速开始搭建聊天机器人

摘要: 快速开始 在本快速入门中,我们将向您展示如何: 使用 LangChain、LangSmith 和 LangServe 进行设置 使用LangChain最基本、最常用的组件:提示模板、模型和输出解析器 使用 LangChain 表达式语言,这是 LangChain 构建的协议,有助于组件链接 使用La 阅读全文

posted @ 2025-01-21 20:16 ExplorerMan 阅读(709) 评论(0) 推荐(0)

LangServe全面使用指南

摘要: 在一个阳光明媚的早晨,小王坐在他的工作台前,面前是一堆复杂的代码和文档。他是一位充满激情的码农,正在用LangChain构建一个超级助理一般的聊天机器人。小王对机器人的未来充满憧憬,但眼下他面临着一个巨大的挑战:如何将他的聊天机器人转化为一个用户友好的在线服务。他需要一个能够将模型快速而可靠地部署为 阅读全文

posted @ 2025-01-21 16:57 ExplorerMan 阅读(441) 评论(0) 推荐(0)

使用LangSmith来快速学习LangChain

摘要: 好风凭借力,送我上青云! 什么是LangSmith LangSmith is a platform for building production-grade LLM applications.It lets you debug, test, evaluate, and monitor chains 阅读全文

posted @ 2025-01-21 16:40 ExplorerMan 阅读(475) 评论(0) 推荐(0)

2025年1月20日

Go实战之基于有向无环图的并发执行流的实现

摘要: 1 工作流概述 工作流,是对工作流程中的工作按一定的规则组织在一起并按其进行执行的一种模型。比如常见的行政系统中的加班申请、请假申请;工作流要解决的问题就是为了实现某个特定的目标,让多个参与者之间按某种预定的规则自动的传递信息。 通过有向无环图,可以解决两个问题:从逻辑上,对各个节点的依赖关系进行了 阅读全文

posted @ 2025-01-20 17:16 ExplorerMan 阅读(83) 评论(0) 推荐(0)

2025年1月13日

自动机器学习超参数调整(贝叶斯优化)

摘要: 【导读】机器学习中,调参是一项繁琐但至关重要的任务,因为它很大程度上影响了算法的性能。手动调参十分耗时,网格和随机搜索不需要人力,但需要很长的运行时间。因此,诞生了许多自动调整超参数的方法。贝叶斯优化是一种用模型找到函数最小值方法,已经应用于机器学习问题中的超参数搜索,这种方法性能好,同时比随机搜索 阅读全文

posted @ 2025-01-13 17:26 ExplorerMan 阅读(1156) 评论(0) 推荐(0)

上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 234 下一页

导航