03 2025 档案

一文读懂「RLHF」:基于人类反馈的强化学习
摘要:RLHF(Reinforcement Learning fromHuman Feedback,人类反馈强化学习) 引言 在人工智能领域,尤其是自然语言处理(NLP)技术迅猛发展的今天,如何让机器更好地理解和满足人类的需求成为了一个关键问题。传统的训练方法依赖于大规模的语料库和基于规则的损失函数,但在 阅读全文

posted @ 2025-03-06 16:08 ExplorerMan 阅读(26) 评论(0) 推荐(0) 编辑

LMdeploy 执行效率高于VLLM探究
摘要:VLLM和LMdeploy 各有优劣 VLLM功能多,开发者多,代码比较容易懂也比较容易修改, 能适配不同的平台 LMdeploy执行效率高,开发者少,文档几乎没有,只支持NVidia 公司实际上线,肯定要博采众长,既要有LMdeploy的执行效率,也要参考VLLM的各种功能实现。 LMdelpoy 阅读全文

posted @ 2025-03-04 14:35 ExplorerMan 阅读(8) 评论(0) 推荐(0) 编辑

LMDeploy量化部署LLM&VLM
摘要:LMDeploy简介LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案,提供以下核心功能: 高效的推理:LMDeploy 开发了 Persistent Batch(即 Continuous Batch),Blocked K 阅读全文

posted @ 2025-03-04 14:33 ExplorerMan 阅读(21) 评论(0) 推荐(0) 编辑

SFT、DPO、RLHF对比
摘要:DPO(Direct Preference Optimization,直接偏好优化)和SFT(Supervised Fine-Tuning,有监督微调)是两种用于优化大语言模型(LLMs)的方法,它们在目标、训练流程和适用场景上存在显著区别。以下是两者的详细对比: 1. 概念与目标 SFT(有监督微 阅读全文

posted @ 2025-03-01 00:42 ExplorerMan 阅读(23) 评论(0) 推荐(0) 编辑

RAG模型上下文丢失问题解决方案对比
摘要:RAG模型上下文丢失问题解决方案对比传统的RAG(检索增强生成)系统通过将文档拆分为独立的小块,并为每个数据块单独生成嵌入向量来提升模型的检索能力。然而,这种方法容易丢失上下文信息,导致模型在处理长文本时理解力下降。为了解决这一问题,Anthropic提出了“Contextual Retrieval 阅读全文

posted @ 2025-03-01 00:42 ExplorerMan 阅读(17) 评论(0) 推荐(0) 编辑

使用spacy做分词、实体识别、标注的示例
摘要:下载数据: aws s3 cp s3://applied-nlp-book/data/ data --recursive --no-sign-requestaws s3 cp s3://applied-nlp-book/models/ag_dataset/ models/ag_dataset --r 阅读全文

posted @ 2025-03-01 00:29 ExplorerMan 阅读(11) 评论(0) 推荐(0) 编辑

大模型:RAG 开发四大痛点及解决方案
摘要:开发者们在使用 RAG(检索增强生成模型)时经常会遇到一个问题——上下文缺失。因为单个数据块缺乏足够的背景,导致模型无法准确回答问题,甚至出现幻觉!先举几个例子让大家感受一下:- 数据块常常用代词来描述内容(比如:它、它们…),在检索时可能导致错误。- 许多问题的答案分散在多个数据块中,单个数据块无 阅读全文

posted @ 2025-03-01 00:13 ExplorerMan 阅读(34) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示