02 2025 档案

ragflow功能简介
摘要:RAGFlow 是一款开源的检索增强生成(RAG)引擎,结合了数据检索与生成式模型,旨在提升生成式 AI 系统的效率和性能。以下是其主要功能和特点: 1. 深度文档理解 RAGFlow 能够处理多种复杂格式的非结构化数据,如 PDF、Word 文档、PPT、Excel 表格、图片、扫描件、结构化数据 阅读全文

posted @ 2025-02-27 17:20 ExplorerMan 阅读(2825) 评论(0) 推荐(0)

ollama与vllm的区别
摘要:‌Ollama和vLLM在多个方面存在显著差异,主要包括应用场景、性能、硬件要求、安装难度和用户友好性等‌‌12。 应用场景 ‌Ollama‌:适合个人开发者、小型项目或需要快速部署的场景。它是一个轻量级且易于使用的框架,旨在简化大型语言模型的本地部署和运行。Ollama特别适合资源有限的设备和个人 阅读全文

posted @ 2025-02-27 17:12 ExplorerMan 阅读(5546) 评论(0) 推荐(1)

LLM大模型部署实战指南:Ollama简化流程,OpenLLM灵活部署,LocalAI本地优化,Dify赋能应用开发
摘要:LLM大模型部署实战指南:Ollama简化流程,OpenLLM灵活部署,LocalAI本地优化,Dify赋能应用开发1. Ollama 部署的本地模型(🔺)Ollama 是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。,这是 Ollama 的官网地址:ollama.co 阅读全文

posted @ 2025-02-27 17:10 ExplorerMan 阅读(856) 评论(0) 推荐(0)

RAG实战:本地部署ragflow+ollama(linux)
摘要:1.部署ragflow1.1安装配置docker因为ragflow需要诸如elasticsearch、mysql、redis等一系列三方依赖,所以用docker是最简便的方法。 docker安装可参考Linux安装Docker完整教程,安装后修改docker配置如下: vim /etc/docker 阅读全文

posted @ 2025-02-27 17:05 ExplorerMan 阅读(6182) 评论(0) 推荐(0)

RagFlow本地部署使用
摘要:文章目录前言一、RAGFlow的安装和部署1.安装2.注册登录二、添加模型1.配置 Ollama 连接大模型2.配置Xinference连接大模型三、知识库使用1.创建知识库2.上传文件解析四、聊天前言开源RAGFlow引擎:打造无幻觉、高精度的文档理解与生成体验 RAGflow,这个新兴的开源RA 阅读全文

posted @ 2025-02-27 17:03 ExplorerMan 阅读(4841) 评论(0) 推荐(0)

自动写提示词:DSPy.MIPROv2的介绍与实践(附代码)
摘要:引言 此前,笔者曾分享过自动写prompt的论文,本文则开展实践工作,用DSPy.MIPROv2来自动写提示词。 本文包含两部分内容: 介绍DSPy.MIPROv2优化器的原理和主要参数; 在AI生成文本检测任务上实践。 本文的所有代码已上传git: https://github.com/duany 阅读全文

posted @ 2025-02-26 22:49 ExplorerMan 阅读(461) 评论(0) 推荐(0)

新RAG架构范式!DSPy将革命性改变RAG系统架构方式!!
摘要:什么是 DSPy? DSPy(Declarative Self-improving Language Programs (in Python))是斯坦福大学 NLP 研究人员开发的 "基础模型编程 "框架。它强调编程而非提示词,旨在简化复杂语言模型应用的构建过程。DSPy 允许开发者专注于应用程序的 阅读全文

posted @ 2025-02-26 22:42 ExplorerMan 阅读(169) 评论(0) 推荐(0)

dspy自动化提示词工程
摘要:https://github.com/stanfordnlp/dspy?continueFlag=3b3f055409304bc40206fc4b23fa5648 阅读全文

posted @ 2025-02-26 22:42 ExplorerMan 阅读(43) 评论(0) 推荐(0)

还在人工炼丹?自动提示工程指南来了,还带从头实现
摘要:机器之心报道 编辑:Panda 人工设计提示词太麻烦了!想过让 LLM 帮你设计用于 LLM 的提示词吗? 近日,自称生成式 AI 黑带选手的谷歌研究者 Heiko Hotz 发布了一篇长文,详细介绍了自动提示词工程的概念、原理和工作流程,并通过代码从头实现了这一方法。 自动提示词工程是什么? 自动 阅读全文

posted @ 2025-02-26 22:30 ExplorerMan 阅读(296) 评论(0) 推荐(0)

大模型微调新思路:LoRA技术解析
摘要:大模型微调新思路:LoRA技术解析LoRA,全称Low-Rank Adaptation,是一种用于大模型微调的新方法。它通过低秩分解来模拟参数的改变量,从而以极小的参数量实现大模型的间接训练。简单来说,LoRA就是在原模型旁边增加一个旁路,通过低秩分解来模拟参数的更新量。训练时,原模型保持固定,只训 阅读全文

posted @ 2025-02-26 22:01 ExplorerMan 阅读(234) 评论(0) 推荐(0)

Elasticsearch 8 RAG 技术分享
摘要:转:https://mp.weixin.qq.com/s?__biz=Mzg4MzgxNDk2OA==&mid=2247495959&idx=1&sn=b516e46d808ed0ed195297c4c79d4ea8&chksm=cf431640f8349f56e9301ae6b364f9627eb 阅读全文

posted @ 2025-02-26 21:56 ExplorerMan 阅读(291) 评论(0) 推荐(0)

解读阿里云搜索开发工作台如何快速搭建AI语义搜索及RAG链路
摘要:转:https://mp.weixin.qq.com/s?__biz=Mzg4MzgxNDk2OA==&mid=2247495162&idx=1&sn=ad5097c1ae3b5c95dbed2a1eccb9ba78&chksm=cf430aadf83483bb88819beaf86b5a9d401 阅读全文

posted @ 2025-02-26 21:42 ExplorerMan 阅读(83) 评论(0) 推荐(0)

spark saveAsHadoopFile
摘要:saveAsHadoopFile 和 write.parquet 或 write.text 是 Apache Spark 中用于保存数据的不同方法,它们在功能、适用场景和底层实现上存在显著区别。以下是它们的对比和区别: 1. saveAsHadoopFile saveAsHadoopFile 是 S 阅读全文

posted @ 2025-02-26 16:06 ExplorerMan 阅读(73) 评论(0) 推荐(0)

spark write parquet与text 区别
摘要:在 Apache Spark 中,write.parquet 和 write.text 是两种不同的数据写入方式,主要用于将数据保存到不同的文件格式中,以下是它们的主要区别: 1. 数据存储格式 Parquet: Parquet 是一种列式存储格式,专为大规模数据分析优化。 它支持复杂的数据结构(如 阅读全文

posted @ 2025-02-26 15:43 ExplorerMan 阅读(104) 评论(0) 推荐(0)

阿里云Elasticsearch AI搜索实践
摘要:阿里云Elasticsearch的AI搜索实践与探索近年来,Elasticsearch(简称ES)在AI领域的发展非常快。作为一名深耕ES领域近十年的研究者,我见证了ES的飞速发展,但像现在AI相关特性上如此快速的迭代,还是非常惊讶的,并意识到持续跟进AI技术的重要性,特别是在阿里云ES上,我们要去 阅读全文

posted @ 2025-02-26 15:17 ExplorerMan 阅读(225) 评论(0) 推荐(0)

智源推出下一代检索增强大模型框架MemoRAG
摘要:近日,北京智源人工智能研究院与中国人民大学高瓴人工智能学院联合推出基于长期记忆的下一代检索增强大模型框架MemoRAG,旨在推动RAG技术从仅能处理简单QA任务向应对复杂一般性任务拓展。MemoRAG提出“基于记忆的线索生成——基于线索指引的信息获取——基于检索片段的内容生成”这一全新的RAG模式, 阅读全文

posted @ 2025-02-26 11:41 ExplorerMan 阅读(128) 评论(0) 推荐(0)

【AI Agent评估】2-Agent-as-a-Judge: 用智能体评估智能体
摘要:近年来,智能体(Agentic Systems)技术迅速发展,被广泛应用于多阶段任务和复杂问题的求解。然而,目前的评估方法却未能有效跟上技术发展的步伐,存在明显局限性: 仅关注最终结果现有方法往往仅关注智能体完成任务的最终结果,而忽略了其在任务过程中每一步的表现。这种“黑箱式”评估缺乏对任务中间过程 阅读全文

posted @ 2025-02-25 23:01 ExplorerMan 阅读(482) 评论(0) 推荐(0)

vLLM源码之分离式架构
摘要:1,背景 本文主要分析vLLM分离式架构原理。 关于大模型推理分离式架构,一直是今年讨论的一个热点,笔者之前针对该技术也做了一些总结。 手抓饼熊:大模型推理分离架构五虎上将301 赞同 · 16 评论文章 作为大模型推理最流行的框架之一,vLLM功能迭代非常的快。关于vLLM的一些个人理解,笔者之前 阅读全文

posted @ 2025-02-25 22:56 ExplorerMan 阅读(1109) 评论(0) 推荐(0)

LLM在Reranker任务上的最佳实践?A simple experiment report(with code)
摘要:引言: 在BERT时代,对于Reranker任务,我们使用encoder-only的BERT为基座,拼接query和doc输入到BERT中去,在使用CLS的向量通过一个MLP,得到得分来做Reranker任务。 在LLM出来之后,一个很自然的想法是,我们能否使用decoder-only的LLM来作为 阅读全文

posted @ 2025-02-25 22:49 ExplorerMan 阅读(199) 评论(0) 推荐(0)

企业级 RAG 全链路优化关键技术
摘要:本文根据2024云栖大会实录整理而成,演讲信息如下: 演讲人: 邢少敏 | 阿里云智能集团高级技术专家 活动: 2024 云栖大会 - AI 搜索企业级 RAG 全链路优化关键技术 在2024云栖大会上,阿里云 AI 搜索研发负责人之一的邢少敏先生带领大家深入了解如何利用 RAG 技术优化决策支持、 阅读全文

posted @ 2025-02-25 22:32 ExplorerMan 阅读(453) 评论(0) 推荐(0)

to_json 与to_json_string区别
摘要:在Hive中,to_json和to_json_string是用于将复杂数据类型(如结构体、数组、映射等)转换为JSON格式字符串的函数。它们的主要区别在于实现和使用场景上。以下是两者的对比和说明: to_json 功能:将Hive中的复杂数据类型(如struct、array、map等)转换为JSON 阅读全文

posted @ 2025-02-25 19:50 ExplorerMan 阅读(414) 评论(0) 推荐(0)

collect_list 和 collect_set 有什么区别?
摘要:collect_list 和 collect_set 是 Hive 中用于聚合数据的两个常用函数,它们的主要区别在于是否去除重复值以及结果的顺序性。以下是它们的详细对比: 1. 功能区别 collect_list: 功能:将指定列的所有值(包括重复值)收集到一个数组中。 特点:保留所有值,不进行去重 阅读全文

posted @ 2025-02-25 19:43 ExplorerMan 阅读(1699) 评论(0) 推荐(1)

named_struct和map函数区别
摘要:在Hive中,named_struct和map函数都可以用来创建复杂的数据结构,但它们在功能和用途上有明显的区别。以下是两者的详细对比: 1. named_struct函数 功能:named_struct用于创建一个命名的结构体(struct),其中每个字段都有一个名称和值。 语法: sql复制 n 阅读全文

posted @ 2025-02-25 19:38 ExplorerMan 阅读(273) 评论(0) 推荐(0)

从零手搓MoE大模型
摘要:转:https://mp.weixin.qq.com/s/gDtzzSRunUrKjoIUGSHCvA传说中GPT-4的“致胜法宝”——MoE(混合专家)架构,自己也能手搓了! Hugging Face上有一位机器学习大神,分享了如何从头开始建立一套完整的MoE系统。 这个项目被作者叫做MakeMo 阅读全文

posted @ 2025-02-24 22:32 ExplorerMan 阅读(128) 评论(0) 推荐(0)

LLM之模型评估:情感评估/EQ评估/幻觉评估等
摘要:evaluation-guidebook https://github.com/huggingface/evaluation-guidebook 如果您想知道如何确保 LLM 在您的特定任务上表现出色,本指南适合您!它涵盖了评估模型的不同方法、设计您自己的评估的指南以及来自实践经验的技巧和窍门。 H 阅读全文

posted @ 2025-02-24 22:26 ExplorerMan 阅读(276) 评论(0) 推荐(0)

SQL字符串拼接函数concat()、collect_set()、collect_list()和concat_ws()用法
摘要:1、concat_ws()函数和concat()函数的拼接使用极其区别 1.1区别 concat():函数在连接字符串的时候,只要其中一个是NULL,那么将返回NULL 执行代码: select concat('a','b',null); 执行结果: NULL concat_ws():函数在连接字符 阅读全文

posted @ 2025-02-24 16:55 ExplorerMan 阅读(1125) 评论(0) 推荐(0)

长文本 Embedding 模型中的“迟分”策略
摘要:大约一年前,2023 年 10 月,我们推出了全球首个支持 8K 上下文长度的开源 Embedding 模型 —— jina-embeddings-v2-base-en。自此,长文本在 Embedding 模型中的应用引发了广泛讨论和争议。 信息压缩问题:将数千字的长文本编码为单一 Embeddin 阅读全文

posted @ 2025-02-21 19:19 ExplorerMan 阅读(209) 评论(0) 推荐(0)

DistilQwen2:通义千问大模型的知识蒸馏实践
摘要:背景在人工智能快速发展的今天,大语言模型已经成为了人工智能的研究热点。其中,通义千问(Qwen)大模型系列凭借其强大的语言理解和生成能力,吸引了开源社区越来越多的关注。随着这些模型的应用场景不断扩大,如何提高它们的运算效率,降低部署成本,成为了一项重要的课题。知识蒸馏作为一种有效的模型压缩技术,通过 阅读全文

posted @ 2025-02-21 17:49 ExplorerMan 阅读(332) 评论(0) 推荐(0)

从本地部署到企业级服务:十种主流LLM推理框架的技术介绍与对比
摘要:大语言模型(Large Language Models, LLMs)的部署是一项具有技术挑战性的工作。随着模型架构日益复杂,以及硬件需求不断提升,部署过程变得愈发复杂。业界已经发展出多种解决方案,使LLM的部署和扩展变得更加便捷。从适用于个人开发的轻量级本地部署工具,到面向企业级高性能生产环境的推理 阅读全文

posted @ 2025-02-21 16:54 ExplorerMan 阅读(639) 评论(0) 推荐(1)

AIOps RAG 比赛获奖项目 EasyRAG 深度解读
摘要:背景介绍 最近抽空参与 CCF 的 RAG 比赛,系统性对 RAG 检索中多种多样的检索优化方案进行了测试和对比,也发现了不少之前没有注意到的优化细节。从目前的实践来看,比赛确实是一个绝佳策略测试场所,很公平地对不同的优化方案进行了客观比较。实践中不时会发现直观感觉很有效的策略不生效,有些看起来平平 阅读全文

posted @ 2025-02-21 11:36 ExplorerMan 阅读(350) 评论(0) 推荐(0)

Agent 智能体开发框架选型指南
摘要:转:https://mp.weixin.qq.com/s/0jB157hXY2AwIcji0jywBQ 编者按:本文通过作者的实践对比发现,框架的选择应基于项目具体需求和团队特点,而不是简单追求某个特定框架。不同框架各有优势: 无框架方案实施最为简单直接,代码结构清晰,适合理解智能体原理,但随着项目 阅读全文

posted @ 2025-02-21 11:19 ExplorerMan 阅读(892) 评论(0) 推荐(0)

2024年大模型多智能体workflow技术之Multi-Agent Debate,Acc-Debate,DebateTune,ChatEval,COEVOL,GroupDebate,CMD等
摘要:最近看了一些关于agent debate相关的内容,觉得挺有意思的(跟我以前做的对比学习很像,可以认为是大模型推理阶段的生成式对比学习),所以就把我的理解分享出来,也欢迎大家的匹配指正。现有的debate(一种Agentic Workflow)策略分为3步,第一步就是对给定的问题生成解决方案,第二步 阅读全文

posted @ 2025-02-20 19:29 ExplorerMan 阅读(730) 评论(0) 推荐(0)

全网最全国内Agent平台深度测评:扣子、Dify、FastGPT,谁是你的Agent开发首选?
摘要:上一篇文章我们按照时间先后顺序,梳理了国内的9个Agent开发平台,分别是Dify、FastGPT、文心智能体平台、千帆AppBuilder、智谱智能体中心、天工SkyAgents、扣子、讯飞星火智能体平台、腾讯元器。 面对繁多的Agent平台,到底该如何选择呢?那个最好用? 本篇就系统地做一个Ag 阅读全文

posted @ 2025-02-20 19:19 ExplorerMan 阅读(13479) 评论(1) 推荐(1)

RAG框架,都在这了!
摘要:RAG 很多人都听说过,或者实践过,目前最直接的应用就是构建智能问答系统。 什么是 RAG? RAG 是 Retrieval Augmented Generation 的简写,翻译过来就是检索增强生成。 从名字就可以拆分出 RAG 的三大部分,检索、增强、生成,表面意思就是: 1、去知识库检索相关的 阅读全文

posted @ 2025-02-20 17:27 ExplorerMan 阅读(5046) 评论(0) 推荐(2)

FastRAG半结构化RAG实现思路及OpenAI O1-long COT蒸馏路线思考
摘要:本文看两个问题,一个是最近模仿openaiAI O1现有路线-long COT蒸馏路线,有些有趣的点。 另一个是还是回归到RAG上,最近同名的RAG框架很多,例如fastRAG(https://github.com/IntelLabs/fastRAG.git,朴素rag的一个模块化)和FastRAG 阅读全文

posted @ 2025-02-20 17:18 ExplorerMan 阅读(119) 评论(0) 推荐(0)

技术笔记-LLM的格式化输出和工具调用
摘要:调用外部工具是Agent区别于LLM的最重要区别之一。为了调用外部工具,需要做的主要有两件事: 针对用户输入的要求,从工具池中选择合适的工具,当然也可以选择不调用工具。这里考察的是LLM的reasoning的能力,一般来说,越大的模型效果越好。 对于选择的工具,要传入正确的参数(包括格式和内容)。这 阅读全文

posted @ 2025-02-20 17:01 ExplorerMan 阅读(413) 评论(0) 推荐(0)

RAG七十二式:2024年度RAG清单
摘要:RAG七十二式:2024年度RAG清单 转:https://mp.weixin.qq.com/s/Sy1dSx5RUtD6rjMY7_efkw ▍作者:范志东,蚂蚁图计算开源负责人、图计算布道师 回顾2024,大模型日新月异,智能体百家争鸣。作为AI应用的重要组成部分,RAG也是“群雄逐鹿,诸侯并起 阅读全文

posted @ 2025-02-20 16:32 ExplorerMan 阅读(245) 评论(0) 推荐(0)

DeepSeek最强专业拆解来了,清交复教授超硬核解读
摘要:https://mp.weixin.qq.com/s/LsMOIgQinPZBnsga0imcvA DeepSeek的写作能力为何飞跃?PTX是否真正做到了绕开CUDA的垄断?编辑 | ZeR0智东西2月3日报道,周日晚间,五位高校教授夜话DeepSeek,从模型方法、框架、系统、基础设施等角度,阐 阅读全文

posted @ 2025-02-20 15:25 ExplorerMan 阅读(160) 评论(0) 推荐(0)

万字解析DeepSeek MOE架构——从Switch Transformers到DeepSeek v1/v2/v3
摘要:前文对基于DeepSeek v3 Base模型训练的deepseek-R1技术报告进行了解读,如有需求可阅读: 浮生梦晓:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning——技术报告详 阅读全文

posted @ 2025-02-20 11:44 ExplorerMan 阅读(1389) 评论(0) 推荐(0)

大语言模型应用开发框架 —— Eino 正式开源!
摘要:经过字节跳动内部半年多的使用和迭代,基于 Golang 的大模型应用综合开发框架 —— Eino,已在 CloudWeGo 正式开源啦! Eino 基于明确的“组件”定义,提供强大的流程“编排”,覆盖开发全流程,旨在帮助开发者以最快的速度实现最有深度的大模型应用。 你是否曾有这种感受:想要为自己的应 阅读全文

posted @ 2025-02-19 20:39 ExplorerMan 阅读(522) 评论(0) 推荐(0)

VisRAG:基于视觉的检索增强生成方法
摘要:研究背景 研究问题:这篇文章要解决的问题是如何在多模态文档中利用视觉信息来增强大型语言模型(LLMs)的生成能力。传统的检索增强生成(RAG)系统仅基于文本,无法利用布局和图像等视觉信息,这在现实世界的多模态文档中非常重要。 研究难点:该问题的研究难点包括:如何在多模态文档中直接嵌入图像并使用视觉语 阅读全文

posted @ 2025-02-19 19:45 ExplorerMan 阅读(260) 评论(0) 推荐(0)

梳理2024年的RAG
摘要:在已经过去的 2024 年,RAG 的发展可以称得上是风起云涌,我们回顾全年,从多个角度对全年的发展进行总结。首先用下图镇楼: 对于 2024 年的 RAG 来说,有一系列标志性事件: 关于 RAG 的争论——RAG 已死,RAG 永存 ! 2024 年在年初被称为“RAG 发展元年”,虽然这并非共 阅读全文

posted @ 2025-02-19 19:37 ExplorerMan 阅读(443) 评论(0) 推荐(1)

谷歌 DeepMind 推出 OPRO 技术,可优化 ChatGPT 提示
摘要:据站长之家 11 月 21 日报道,在最新的 AI 研究报道中,Google DeepMind 推出了一项名为“优化通过提示(OPRO)”的技术,将大型语言模型(LLM)作为其自身提示的优化器。该方法旨在通过自然语言描述问题,指导 LLM 生成和改进解决方案,从而提高提示性能。 DeepMind 的 阅读全文

posted @ 2025-02-18 14:17 ExplorerMan 阅读(155) 评论(0) 推荐(0)

PromptWizard:微软开源 AI 提示词自动化优化框架
摘要:‌PromptWizard‌是一个由微软研究院开发的自动化提示词优化框架,旨在改进大型语言模型(LLMs)在特定任务中的表现。该框架通过自我演变和自我适应机制,利用反馈驱动的批评和合成过程,迭代优化提示指令和上下文示例,从而提高模型的准确性和效率‌12。 主要功能和技术原理 PromptWizard 阅读全文

posted @ 2025-02-18 11:40 ExplorerMan 阅读(641) 评论(0) 推荐(0)

Flow-DPO通过在线多Agent学习提升LLM的数学推理能力
摘要:‌Flow-DPO‌是一种通过在线多智能体学习来提升LLM(大型语言模型)数学推理能力的新方法。Flow-DPO结合了在线学习流(Flow)和直接偏好优化(DPO),通过两个独立的语言模型互相协作,纠正对方的错误,从而生成更加准确和详细的推理轨迹‌12。 工作原理 Flow-DPO的核心在于构建两个 阅读全文

posted @ 2025-02-18 11:27 ExplorerMan 阅读(112) 评论(0) 推荐(0)

2024年大模型 对比
摘要:自OpenAI在2022年12月发布GPT-3.5模型驱动的ChatGPT以来,生成式AI就如火如荼地展开了一场声势浩大的「军备竞赛」。 而仅仅不到两年,多个实验室就都已经赶上了OpenAI的GPT-4,甚至出现了第一批超越GPT-4o智能水平的模型。例如:Claude 3.5 Sonnet,Gem 阅读全文

posted @ 2025-02-17 20:54 ExplorerMan 阅读(120) 评论(0) 推荐(0)

谷歌新一代大模型Gemini 2.0
摘要:继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了! 就在刚刚,谷歌新一代大模型Gemini 2.0突然登场,再次由谷歌CEO皮猜亲自官宣。 新一代模型专为AI Agent而打造,谷歌表示目前已经将2.0版本提供给了一些开发者内测,正在迅速将其集成在Gemini和搜索等产品线中。 好消息是 阅读全文

posted @ 2025-02-17 20:47 ExplorerMan 阅读(169) 评论(0) 推荐(0)

大模型在陌陌的推理与应用
摘要:导读 本文将分享陌陌如何利用大模型技术革新其业务与研发流程。 主要内容包括以下几个部分: 1. AI 应用范式更新 2. 大模型高效推理 3. 大模型应用平台 4. 未来展望 5. 总结 6. Q&A 分享嘉宾|陈玉祥 挚文集团 算法工程专家 编辑整理|王文海 内容校对|李瑶 出品社区|DataFu 阅读全文

posted @ 2025-02-17 20:19 ExplorerMan 阅读(139) 评论(0) 推荐(0)

2024年大模型推理优化论文精选
摘要:OSDI (USENIX Symposium on Operating Systems Design and Implementation) 和SOSP (ACM Symposium on Operating Systems Principles) 是计算机操作系统领域最重要的两大国际会议,在国际上 阅读全文

posted @ 2025-02-17 20:17 ExplorerMan 阅读(581) 评论(0) 推荐(0)

DeepSeek-R 与 DeepSeek-V 区别
摘要:DeepSeek-R1和DeepSeek-V3是深度求索推出的两款大模型,它们在设计目标、架构、训练方法、性能表现和应用场景等方面存在显著差异,以下是具体对比: 1. 模型定位与核心能力 DeepSeek-V3:通用型自然语言处理模型,专注于多语言生成、知识问答、内容创作等任务,优势在于高效的多模态 阅读全文

posted @ 2025-02-14 16:48 ExplorerMan 阅读(2295) 评论(0) 推荐(0)

深度学习中常用的开源数据集
摘要:Kaggle(https://www.kaggle.com/datasets):Kaggle 是一个著名的数据科学竞赛平台,也提供了大量的开放数据集供用户下载和使用。UCI Machine Learning Repository(https://archive.ics.uci.edu/dataset 阅读全文

posted @ 2025-02-13 14:39 ExplorerMan 阅读(1235) 评论(0) 推荐(0)

LLM时代,数据为王,19个开源数据集下载网站汇总
摘要:大模型时代,数据为王,在哪里寻找开源数据集,是一个比较头疼的问题。经过调研整理,下面列出了目前可以寻找开源大模型数据集的网站清单。 1、HuggingFace开源数据集 链接:https://huggingface.co/datasets 镜像:https://hf-mirror.com/datas 阅读全文

posted @ 2025-02-13 14:36 ExplorerMan 阅读(4091) 评论(0) 推荐(0)

模型训练学习率设置
摘要:在大语言模型训练中,学习率的调整策略对模型的收敛速度和最终性能至关重要。以下是一些常用的学习率调整方法和建议: 1. 固定学习率(Constant Learning Rate) 固定学习率是最简单的方法,学习率在整个训练过程中保持不变。这种方法适用于简单的任务或小规模模型,但在大规模模型训练中可能不 阅读全文

posted @ 2025-02-13 11:45 ExplorerMan 阅读(542) 评论(0) 推荐(0)

大模型训练迭代轮次设置
摘要:在大模型训练中,迭代轮次(通常指Epoch数量)的设置取决于多种因素,包括数据集大小、模型复杂度、硬件资源以及训练目标等。以下是一些常见的设置和建议: 1. 基础设置 小型数据集:如果数据集较小(如几千到几万个样本),通常可以设置较高的Epoch数量,例如10-50个Epoch。 大型数据集:对于大 阅读全文

posted @ 2025-02-13 11:37 ExplorerMan 阅读(1034) 评论(0) 推荐(0)

大模型的token 和文字长度关系
摘要:在大语言模型中,Token 是文本的基本单位,用于将文本分解为模型能够处理的最小单元。Token 的计算方法和文字长度的换算比例会因语言和模型的分词策略不同而有所差异。以下是具体介绍: Token 的计算方法 加载分词器:使用预训练的分词器,这些分词器已经学习了如何将文本转换为 Tokens。 文本 阅读全文

posted @ 2025-02-13 11:27 ExplorerMan 阅读(1079) 评论(0) 推荐(0)

大模型推理框架
摘要:以下是目前比较流行的大模型推理框架: 1. vLLM 特点:专注于高性能推理和服务的开源框架。核心创新在于PagedAttention技术,优化了注意力机制的内存使用效率,并通过连续批处理技术提升GPU利用率。 优势:支持多种量化方法,与OpenAI API兼容,与Hugging Face生态系统深 阅读全文

posted @ 2025-02-12 14:47 ExplorerMan 阅读(411) 评论(0) 推荐(0)

GraphRAG
摘要:微软年中开源 GraphRAG 是一个现象级事件,作为一个库而非端到端产品,能在短时间内获得大量关注,说明它确实解决了 RAG 的一些核心问题——这就是语义鸿沟。做搜索系统的人很早就在面临这样的麻烦,因为查询和答案之间并不总能保证可以匹配。当搜索系统升级到 RAG 之后,这样的问题被放大:搜索系统的 阅读全文

posted @ 2025-02-12 11:48 ExplorerMan 阅读(50) 评论(0) 推荐(0)

RAG 引擎 RAGFlow
摘要:RAGFlow开源了一个RAG框架!RAGFlow :一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠 阅读全文

posted @ 2025-02-11 20:49 ExplorerMan 阅读(315) 评论(0) 推荐(0)

vLLM
摘要:‌vLLM(Virtual Large Language Model)‌是一个用于优化大型语言模型(LLM)推理的高效系统。它的主要设计目标是通过减少计算开销和提高吞吐量,来加速LLM在推理阶段的性能‌1。 技术特点和应用场景 vLLM具有以下核心特性: ‌高效内存管理‌:vLLM采用PagedAt 阅读全文

posted @ 2025-02-11 20:15 ExplorerMan 阅读(740) 评论(0) 推荐(0)

大模型在陌陌的推理与应用
摘要:导读 本文将分享陌陌如何利用大模型技术革新其业务与研发流程。 主要内容包括以下几个部分: 1. AI 应用范式更新 2. 大模型高效推理 3. 大模型应用平台 4. 未来展望 5. 总结 6. Q&A 分享嘉宾|陈玉祥 挚文集团 算法工程专家 编辑整理|王文海 内容校对|李瑶 出品社区|DataFu 阅读全文

posted @ 2025-02-11 20:09 ExplorerMan 阅读(113) 评论(0) 推荐(0)

DeepSeek-V3 详解:深入探究下一代 AI 模型
摘要:如何使用 DeepSeek-V3:代码示例 为了帮助您开始使用 DeepSeek-V3,这里有一些使用 Python 和Hugging Face Transformers 库的实际示例。 安装所需的库 首先,安装必要的库: pip install transformers torch 示例 1:使用 阅读全文

posted @ 2025-02-11 16:20 ExplorerMan 阅读(914) 评论(0) 推荐(0)

关于 MoE 大模型负载均衡策略演进的回顾:坑点与经验教训
摘要:故事要从 GShard 说起——当时,人们意识到拥有数十亿甚至数万亿参数的模型可以通过某种形式的“稀疏化(sparsified)”来在保持高精度的同时加速训练。自那以后,我们见证了各种让人眼花缭乱的创新。本文将尝试把从 GShard 到 DeepSeek-V3 这一系列关键方案串联起来,看看每一次迭 阅读全文

posted @ 2025-02-11 16:02 ExplorerMan 阅读(1097) 评论(0) 推荐(0)

一文彻底整明白,基于Ollama工具的LLM大语言模型Web可视化对话机器人部署指南
摘要:为了方便把我们的大模型对话机器人分享出去,聊天机器人最后是基于Web网站,可通过浏览器访问,本文正是通过Ollama和WebUI在本地部署Llama 3Web 版聊天机器人,本文包括如下部分: 什么是Ollama,它与Llama是什么关系? 安装Ollama大语言模型工具 安装Node.js编程语言 阅读全文

posted @ 2025-02-11 11:27 ExplorerMan 阅读(460) 评论(0) 推荐(0)

LlaMA模型架构,什么是LlaMA?
摘要:1)什么是LlaMA?LLaMA的全称是Large Language Model Meta AI,直译为“大语言模型元AI”。由于“Llama”在西班牙语中意为“羊驼”,因此社区也将其昵称为羊驼系模型。 LLaMA于2023年2月由Meta AI发布,是该系列的初代模型。随后,Meta AI又相继推 阅读全文

posted @ 2025-02-11 11:25 ExplorerMan 阅读(731) 评论(0) 推荐(0)

多头潜在注意力MLA
摘要:多头潜在注意力(Multi-Head Latent Attention,MLA)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列或多模态数据时的效率和性能。以下是对其的简单形象解释: MLA的核心思想 MLA结合了多头注意力(MHA)和潜在表示学习。它通过将高维输入映射到低维潜 阅读全文

posted @ 2025-02-10 19:54 ExplorerMan 阅读(771) 评论(0) 推荐(0)

大模型MoE
摘要:MoE(Mixture of Experts,混合专家模型)是一种新型的大模型架构,其核心思想是“术业有专攻”,通过多个“专家”模型共同协作来处理复杂的任务。以下是一个简单形象的解释: 1. MoE的核心组成 专家(Experts):MoE模型由多个独立的子模型组成,每个子模型被称为一个“专家”。这 阅读全文

posted @ 2025-02-10 19:49 ExplorerMan 阅读(249) 评论(0) 推荐(0)

大模型Attention
摘要:用一个简单形象的例子来理解大模型中的Attention(注意力机制)。 1. 什么是Attention? 想象一下,你正在读一篇很长的文章。文章里有很多内容,但你可能只对其中一部分特别感兴趣,比如一个关键的情节或者一个重要的观点。你的大脑会自然地把注意力集中在这些重要的部分,而对其他部分的关注度会相 阅读全文

posted @ 2025-02-10 19:43 ExplorerMan 阅读(163) 评论(0) 推荐(0)

统一视角看 Attention 与 MoE
摘要:注: 本文 原始 idea 来自于香港大学(HKU) 黄毅老师 (主页: Ngai Wong), 与本人共同讨论, 形成此文. Update: 简易版报告在我主页, 可以访问 https://wutaiqiang.github.io/pdf/Unified_view_for_Attention_an 阅读全文

posted @ 2025-02-10 19:34 ExplorerMan 阅读(171) 评论(0) 推荐(0)

导航