[置顶] 自我博弈偏好优化(Self-Play Preference Optimization,SPO)能否奖励模型?

摘要: 自我博弈偏好优化(Self-Play Preference Optimization, SPO)是一种通过自我博弈机制直接优化策略的方法,其核心特点是无需显式奖励模型,也不依赖对抗性训练。从技术本质来看,SPO 确实在特定场景下取代了奖励模型,但这一取代并非绝对,而是取决于任务类型和优化目标。以下从 阅读全文

posted @ 2025-08-22 11:07 limingqi 阅读(100) 评论(0) 推荐(0)

[置顶] POLAR 的无监督预训练

摘要: POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分,结合具体例子会更易理解: 一、核心目标 让奖励模型(RM)像 “策略侦探” 一样,学会判断两条轨迹(模型输出)是否来自同一个 “政策”(即同一个模型或相似行为模式的模型)。如果来自同一政策,就给它们更高的 “相 阅读全文

posted @ 2025-07-26 12:48 limingqi 阅读(55) 评论(0) 推荐(0)

[置顶] Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要: 一、研究背景 强化学习(RL)在大型语言模型(LLMs)的训练中至关重要,其成功取决于奖励模型(RM)提供精确稳定反馈的能力。 传统奖励模型依赖标注的偏好对训练,存在可扩展性和泛化性问题,前者受限于获取大量高质量标注对的难度,后者因建模人类偏好的主观性易受奖励攻击。 规则基验证器虽能提供准确奖励信号 阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(108) 评论(0) 推荐(0)

2026年2月6日

测试case数据分析

摘要: 结论: 当前的case问题主要分为三类: native_rag测试问题:检索不到相关内容占比较大73.6%,部分检索到占比15.7%,检索相关性差5.2%。 native_rag测试问题解决:使用agentic_rag 可以解决19个case native_rag VS agentic_rag时间分 阅读全文

posted @ 2026-02-06 16:49 limingqi 阅读(0) 评论(0) 推荐(0)

2026年2月5日

prompt

摘要: 你是色彩调配专家根据angle,L, A, B 的值预测base_color, base_ratio, sliver_name, sliver_ratio 的结果。根据参考示例的数据内容进行合理的预测 参考示例: base_color base_ratio sliver_name sliver_ra 阅读全文

posted @ 2026-02-05 23:18 limingqi 阅读(11) 评论(0) 推荐(0)

2026年2月3日

“取代 RAG” 的核心指向

摘要: 一、RIG(Retrieval Interleaved Generation):谷歌推出的 “检索 - 生成交错” 方案 1. 核心原理(区别于传统 RAG) 传统 RAG 是 “先检索、后生成” 的线性流程(用户查询→一次性检索外部数据→整合生成答案),而 RIG 采用 “检索与生成实时交错” 模 阅读全文

posted @ 2026-02-03 17:00 limingqi 阅读(18) 评论(0) 推荐(0)

2026年2月2日

从普通到年薪 200w,个体的赚钱路径

摘要: 核心逻辑:从“个人高产出”升级为“个人价值可复制/可杠杆/可溢价”,把单一个体的200万能力,通过「杠杆放大、价值沉淀、赛道卡位」,让收入持续增长的同时,降低“纯靠个人拼体力”的不可持续性,同时搭建别人无法快速替代的高壁垒。以下策略全是落地性动作,无空泛理论,按「优先级从高到低」排序,适配单干型高价 阅读全文

posted @ 2026-02-02 17:16 limingqi 阅读(17) 评论(0) 推荐(0)

Agentic Vision

摘要: 两项代表性的研究 Gemini 3: 显式视觉规划 「思考-行动-观察」(Think-Act-Observe)的闭环,利用代码执行作为视觉推理的工具,将被动的视觉理解转化为主动的智能体过程。 思考(Think):模型分析用户查询和初始图像,制定多步计划。 行动(Act):模型生成并执行Python代 阅读全文

posted @ 2026-02-02 15:33 limingqi 阅读(19) 评论(0) 推荐(0)

不用羡慕别人会赚钱,你缺的不是天赋,是可落地的变现思维

摘要: 一、判断一个人是否擅长挣钱的6 个核心维度(看能力而非单纯看数字,可落地验证) 核心不是看 “赚了多少”,而是看赚钱的底层逻辑和可持续性,擅长挣钱的人,本质是把「能力→价值→变现」的链路跑通且能复制,6 个维度按重要性排序: 1. 价值变现能力:能把自身技能 / 经验 / 资源,转化为可交易的产品 阅读全文

posted @ 2026-02-02 13:43 limingqi 阅读(19) 评论(0) 推荐(0)

知识付费从0-1的盈利方法论

摘要: 2025年以0-1 验证成功(4w 收入) 为基础,围绕内容复用、精准引流、多层变现三大核心,实现低成本、可复制的收入增长,核心是 “把已验证的成功经验,做深、做透、做规模化”,具体分 3 大模块、9 个落地要点,轻量易执行: 一、内容端:一次创作,多次复用,降低创作成本 核心逻辑:基于已变现的干货 阅读全文

posted @ 2026-02-02 11:23 limingqi 阅读(30) 评论(0) 推荐(0)

2026年1月28日

HaluMem:首个面向智能体记忆系统的操作级幻觉评估基准

摘要: 一、核心背景与问题 当前智能体(Agent)的记忆系统(如 Mem0、Zep 等)虽能提升长期交互能力,但在记忆存储、提取、更新全流程中频繁出现 “记忆幻觉”,具体表现为四类问题: 虚构:添加对话中未出现的信息(如无中生有 “用户讨厌咖啡”); 错误:存储信息与事实不符(如将 “用户朋友叫 Jose 阅读全文

posted @ 2026-01-28 14:34 limingqi 阅读(10) 评论(0) 推荐(0)

2026年1月23日

CORE: A Conceptual Reasoning Layer for Large Language Models

摘要: 结合搜索到的相关摘要(尤其摘要 1),该论文聚焦大语言模型(LLMs)多轮对话中的 “token 优先” 范式缺陷,提出了名为 “CORE” 的概念导向推理层,通过 “概念优先” 的交互逻辑,解决 LLMs 在长对话中记忆漂移、推理低效、上下文冗余的核心痛点,且无需修改模型权重,实现多轮对话稳定性与 阅读全文

posted @ 2026-01-23 16:44 limingqi 阅读(10) 评论(0) 推荐(0)

Efficient and Accurate Memorable Conversation Model using DPO based on sLLM

摘要: 该论文聚焦小型大语言模型(sLLM)在多轮会话系统中的记忆管理与对话质量优化,针对 sLLM 输入长度有限、多会话记忆积累导致推理效率低的痛点,提出了基于 DPO(直接偏好优化)的训练方案,实现 “小参数规模 + 高记忆准确性 + 优对话性能” 的平衡。 一、核心背景与问题 多会话对话的核心需求:在 阅读全文

posted @ 2026-01-23 11:11 limingqi 阅读(10) 评论(0) 推荐(0)

导航