limingqi - 博客园

[置顶] 自我博弈偏好优化（Self-Play Preference Optimization，SPO）能否奖励模型？

摘要：自我博弈偏好优化（Self-Play Preference Optimization, SPO）是一种通过自我博弈机制直接优化策略的方法，其核心特点是无需显式奖励模型，也不依赖对抗性训练。从技术本质来看，SPO 确实在特定场景下取代了奖励模型，但这一取代并非绝对，而是取决于任务类型和优化目标。以下从阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(108) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要： POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分，结合具体例子会更易理解：一、核心目标让奖励模型（RM）像 “策略侦探” 一样，学会判断两条轨迹（模型输出）是否来自同一个 “政策”（即同一个模型或相似行为模式的模型）。如果来自同一政策，就给它们更高的 “相阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(55) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要：一、研究背景强化学习（RL）在大型语言模型（LLMs）的训练中至关重要，其成功取决于奖励模型（RM）提供精确稳定反馈的能力。传统奖励模型依赖标注的偏好对训练，存在可扩展性和泛化性问题，前者受限于获取大量高质量标注对的难度，后者因建模人类偏好的主观性易受奖励攻击。规则基验证器虽能提供准确奖励信号阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(109) 评论(0) 推荐(0)

测试case数据分析

摘要：结论：当前的case问题主要分为三类： native_rag测试问题：检索不到相关内容占比较大73.6%，部分检索到占比15.7%，检索相关性差5.2%。 native_rag测试问题解决：使用agentic_rag 可以解决19个case native_rag VS agentic_rag时间分阅读全文

posted @ 2026-02-06 16:49 limingqi 阅读(4) 评论(0) 推荐(0)

prompt

摘要：你是色彩调配专家根据angle，L， A， B 的值预测base_color， base_ratio， sliver_name， sliver_ratio 的结果。根据参考示例的数据内容进行合理的预测参考示例： base_color base_ratio sliver_name sliver_ra 阅读全文

posted @ 2026-02-05 23:18 limingqi 阅读(11) 评论(0) 推荐(0)

“取代 RAG” 的核心指向

摘要：一、RIG（Retrieval Interleaved Generation）：谷歌推出的 “检索 - 生成交错” 方案 1. 核心原理（区别于传统 RAG）传统 RAG 是 “先检索、后生成” 的线性流程（用户查询→一次性检索外部数据→整合生成答案），而 RIG 采用 “检索与生成实时交错” 模阅读全文

posted @ 2026-02-03 17:00 limingqi 阅读(26) 评论(0) 推荐(0)

从普通到年薪 200w，个体的赚钱路径

摘要：核心逻辑：从“个人高产出”升级为“个人价值可复制/可杠杆/可溢价”，把单一个体的200万能力，通过「杠杆放大、价值沉淀、赛道卡位」，让收入持续增长的同时，降低“纯靠个人拼体力”的不可持续性，同时搭建别人无法快速替代的高壁垒。以下策略全是落地性动作，无空泛理论，按「优先级从高到低」排序，适配单干型高价阅读全文

posted @ 2026-02-02 17:16 limingqi 阅读(19) 评论(0) 推荐(0)

Agentic Vision

摘要：两项代表性的研究 Gemini 3: 显式视觉规划「思考-行动-观察」（Think-Act-Observe）的闭环，利用代码执行作为视觉推理的工具，将被动的视觉理解转化为主动的智能体过程。思考（Think）：模型分析用户查询和初始图像，制定多步计划。行动（Act）：模型生成并执行Python代阅读全文

posted @ 2026-02-02 15:33 limingqi 阅读(21) 评论(0) 推荐(0)

不用羡慕别人会赚钱，你缺的不是天赋，是可落地的变现思维

摘要：一、判断一个人是否擅长挣钱的6 个核心维度（看能力而非单纯看数字，可落地验证）核心不是看 “赚了多少”，而是看赚钱的底层逻辑和可持续性，擅长挣钱的人，本质是把「能力→价值→变现」的链路跑通且能复制，6 个维度按重要性排序： 1. 价值变现能力：能把自身技能 / 经验 / 资源，转化为可交易的产品阅读全文

posted @ 2026-02-02 13:43 limingqi 阅读(22) 评论(0) 推荐(0)

知识付费从0-1的盈利方法论

摘要： 2025年以0-1 验证成功（4w 收入）为基础，围绕内容复用、精准引流、多层变现三大核心，实现低成本、可复制的收入增长，核心是 “把已验证的成功经验，做深、做透、做规模化”，具体分 3 大模块、9 个落地要点，轻量易执行：一、内容端：一次创作，多次复用，降低创作成本核心逻辑：基于已变现的干货阅读全文

posted @ 2026-02-02 11:23 limingqi 阅读(41) 评论(0) 推荐(0)

HaluMem：首个面向智能体记忆系统的操作级幻觉评估基准

摘要：一、核心背景与问题当前智能体（Agent）的记忆系统（如 Mem0、Zep 等）虽能提升长期交互能力，但在记忆存储、提取、更新全流程中频繁出现 “记忆幻觉”，具体表现为四类问题：虚构：添加对话中未出现的信息（如无中生有 “用户讨厌咖啡”）；错误：存储信息与事实不符（如将 “用户朋友叫 Jose 阅读全文

posted @ 2026-01-28 14:34 limingqi 阅读(12) 评论(0) 推荐(0)

CORE: A Conceptual Reasoning Layer for Large Language Models

摘要：结合搜索到的相关摘要（尤其摘要 1），该论文聚焦大语言模型（LLMs）多轮对话中的 “token 优先” 范式缺陷，提出了名为 “CORE” 的概念导向推理层，通过 “概念优先” 的交互逻辑，解决 LLMs 在长对话中记忆漂移、推理低效、上下文冗余的核心痛点，且无需修改模型权重，实现多轮对话稳定性与阅读全文

posted @ 2026-01-23 16:44 limingqi 阅读(11) 评论(0) 推荐(0)

Efficient and Accurate Memorable Conversation Model using DPO based on sLLM

摘要：该论文聚焦小型大语言模型（sLLM）在多轮会话系统中的记忆管理与对话质量优化，针对 sLLM 输入长度有限、多会话记忆积累导致推理效率低的痛点，提出了基于 DPO（直接偏好优化）的训练方案，实现 “小参数规模 + 高记忆准确性 + 优对话性能” 的平衡。一、核心背景与问题多会话对话的核心需求：在阅读全文

posted @ 2026-01-23 11:11 limingqi 阅读(10) 评论(0) 推荐(0)