stardsd - 博客园

2026年2月27日

摘要：这篇论文核心是解决大语言模型（LLM）在“多轮交互任务”（比如AI助手自动执行代码、连续对话）中的性能瓶颈，提出了一个叫DualPath的系统方案： 1. 先搞懂背景：现在的AI模型遇到了什么麻烦？现在的AI不只是简单聊天了，还能当“自主代理人”——比如连续几十上百轮调用工具（像浏览器、Pytho 阅读全文

posted @ 2026-02-27 16:50 stardsd 阅读(146) 评论(0) 推荐(0)

Test Time Scaling (TTS)

摘要： 1️⃣ 什么是 Test Time Scaling？ Test Time Scaling (TTS) 指的是：在不改变模型参数的前提下，通过增加推理时的计算量，提高模型输出质量。它的本质是： Train-time scaling = 增大模型参数/数据/训练步数 Test-time scali 阅读全文

posted @ 2026-02-27 15:41 stardsd 阅读(49) 评论(0) 推荐(0)

Web 4.0：Agentic Web

摘要：传统意义上的“智能体网络”是指智能体像我们一样“使用”网络。人们对“智能网络”的关注度很高，这也不无道理——人工智能代理能够代表我们在互联网上行动的想法确实很有吸引力。但如果你仔细观察大多数人所说的“智能网络”，你会发现他们描述的其实相当保守。他们说的其实是我们现有的网络，只不过点击操作是由人工智阅读全文

posted @ 2026-02-27 10:55 stardsd 阅读(21) 评论(0) 推荐(0)

2026年2月5日

CL-bench：上下文学习的评测

摘要：原文链接：https://arxiv.org/pdf/2602.03587 这篇文档核心是提出了一个叫“CL-bench”的评估基准，专门测试大语言模型的“语境学习能力”——简单说就是模型能不能从新给的复杂信息里学知识，再用这些知识解决实际问题。为什么要做这个基准？现在的大语言模型（比如GPT、阅读全文

posted @ 2026-02-05 10:58 stardsd 阅读(97) 评论(0) 推荐(0)

2026年2月4日

梅宏院士：符号主义与连接主义的结合应该成为下一代AI的发展方向

摘要：在人工智能浪潮席卷全球、大模型竞争日趋白热化的当下，人类尤其需要理性思考。在近日中欧国际工商学院与上海市工商业联合会共同主办的“工商联·经济大家讲坛暨第十一期中欧话未来”上，北京大学教授、中国计算机学会前理事长、中国科学院院士梅宏对当前人工智能热潮作了冷思考。尽管以深度学习为代表的AI技术取得了阅读全文

posted @ 2026-02-04 15:38 stardsd 阅读(34) 评论(0) 推荐(0)

训推误差（training-inference mismatch）与重要性采样（Importance Sampling，IS）

摘要：一、什么是“训-推误差”（Training-Inference Mismatch）在强化学习（包括 RLHF、PPO、GRPO 等）用于大语言模型（LLM）微调时，会存在一个核心问题：模型在训练阶段与推理阶段使用的策略概率分布不完全一致。核心描述训练过程中通常包含两个不同的计算环节： Roll 阅读全文

posted @ 2026-02-04 10:12 stardsd 阅读(94) 评论(0) 推荐(0)

2026年2月3日

如何设计GRPO系算法的reasoning reward + pair采样策略

摘要：下面进入「能不能把 RL 真正用在 reasoning 上」的核心工程区 reward 设计 + pair 采样策略——为什么这是 GFPO 真正赢的地方。下面内容默认背景：任务是 reasoning / 数学 / 代码 / 多步推理 backbone 是 LLM（policy）用的是 GR 阅读全文

posted @ 2026-02-03 15:11 stardsd 阅读(89) 评论(0) 推荐(0)

GRPO（Group Relative Policy Optimization）算法的演进脉络以及DAPO、VAPO、SRPO、GFPO的区别与联系

摘要： “GRPO 家族算法操作手册” 一、所有算法的共同起点不管哪种变体，前 3 步是完全一样的。 Step 0：准备三样东西一个当前策略模型 \( \pi_\theta(y \mid x) \) 一个 reward 计算方式 rule / verifier RM GPT-judge correct 阅读全文

posted @ 2026-02-03 14:54 stardsd 阅读(58) 评论(0) 推荐(0)

VLM评估体系指标对比：CIDEr vs CLIPScore vs GPT-based Eval

摘要：总览表维度 CIDEr CLIPScore GPT-based Eval 核心思想人类共识 n-gram 跨模态语义对齐大模型当裁判是否需要参考文本 ✅ 需要（多条） ❌ 不需要可选是否看图像 ❌ 不直接 ✅ 是 ✅ 是是否理解语义 ⚠️ 局部 ✅ 全局 ✅ 最强是否理解事实 ❌ ⚠ 阅读全文

posted @ 2026-02-03 10:20 stardsd 阅读(94) 评论(0) 推荐(0)

CIDEr公式：多模态评价指标

摘要： CIDEr 公式 CIDEr（Consensus-based Image Description Evaluation）是图像描述/自然语言生成领域常用的自动评估指标，尤其在 image captioning 任務中。 📌 核心原理 CIDEr 衡量候选描述与多条参考描述之间的相似度：将句子阅读全文

posted @ 2026-02-03 10:14 stardsd 阅读(50) 评论(0) 推荐(0)

TDM（Tree-based Deep Model，树模型）

摘要：从“直觉 → 结构 → 训练 → 推理 → 新 item 挂载”一步步来，用通俗语言 + 必要公式把 TDM（Tree-based Deep Model，树模型）彻底讲透。一、结论 TDM 是一种把“海量 item 的多分类问题”，变成“在一棵树上逐层二分类/多分类”的算法，用树结构把计算复杂度从阅读全文

posted @ 2026-02-03 09:59 stardsd 阅读(16) 评论(0) 推荐(0)

2026年2月2日

VLM的视觉词汇表扩充（Vary：扩展大型视觉语言模型的视觉词汇量）

摘要：下面从“论文结构 → 算法核心 → 关键公式/机制 → 和现有 VLM 的关系”四个层次，把 Vary（Vision Vocabulary Augmentation）的算法部分彻底拆解。一、论文整体结构速览 Vary 这篇论文的逻辑其实非常“干净”，核心只有一件事： CLIP 的视觉词汇不够 → 阅读全文

posted @ 2026-02-02 10:38 stardsd 阅读(44) 评论(0) 推荐(0)

CLIP视觉词汇表与Q-Former

摘要：这个点正好卡在 VLM 的“视觉→语言”接口层。一、先给结论：什么是「CLIP 视觉词汇表」一句话版： CLIP 的“视觉词汇表”不是显式的 token 表，而是一个“隐式的、由语言监督塑形的视觉概念空间”。它本质上是：一组被语言对齐过的视觉 embedding 原型每一个视觉 patc 阅读全文

posted @ 2026-02-02 10:16 stardsd 阅读(28) 评论(0) 推荐(0)

2026年1月14日

Agent Skill 解析

摘要： PPT分享：分析：一、什么是 Agent Skill（一句话定义） Agent Skill 是一种“可复用、可调度、可验证的能力单元”，它把做一件事从一次性 prompt，提升为系统级能力。换句话说： Skill = 行为 + 约束 + 接口 + 状态而不只是“怎么问模型”。二、先用一阅读全文

posted @ 2026-01-14 16:44 stardsd 阅读(258) 评论(0) 推荐(0)

斯科特·佩奇（Scott E. Page）多样性预测定理（Diversity Prediction Theorem）

摘要：这是一个在集体智慧、群体决策、AI ensemble、专家系统中都非常重要的理论。一、一句话版结论（先给直觉） “群体预测的准确性 = 个体平均准确性 + 群体多样性” 也就是说：即使个体并不特别聪明，只要他们的错误是“不一样的”，群体预测就可以非常准。这直接反驳了“必须找最聪明的人”的直觉，阅读全文

posted @ 2026-01-14 11:00 stardsd 阅读(38) 评论(0) 推荐(0)

2026年1月8日

AI合成数据、模型坍缩与数据焦虑问题：合成数据的扩展定律（Scaling Law）

摘要： https://arxiv.org/abs/2503.19551 模型塌缩（Model Collapse）：当新模型越来越多地使用由旧模型生成的数据进行训练，导致数据分布逐步偏离真实世界，从而引发模型能力退化、多样性下降和错误放大的现象。这篇论文核心是解决大语言模型（比如ChatGPT这类）训练阅读全文

posted @ 2026-01-08 16:10 stardsd 阅读(140) 评论(0) 推荐(0)

2026年1月7日

AI Agents攻击及其评测：RAS-Eval

摘要：论文链接： https://arxiv.org/abs/2506.15253 这篇文档核心是介绍了一个叫 RAS-Eval 的“安全测评工具”，专门用来检测大语言模型代理（比如能帮你查日历、做财务咨询、操作数据库的AI助手）在真实场景下的安全漏洞，还通过实验证明了这个工具的有效性。用大白话拆解重点阅读全文

posted @ 2026-01-07 14:56 stardsd 阅读(72) 评论(0) 推荐(0)

Agentic LLMs：下一代 LLM 智能体在规划、记忆、多智能体协作与安全治理上的前沿综述

摘要： LLM Agents：从“会说话的模型”到“可行动的系统” 本文面向已有一定研究或工程基础的读者，尝试在 2024–2025 年最新工作的基础上，对 LLM+Agents 的研究版图进行系统综述，并给出我对未来方向的判断与建议。整体结构如下：概念与范式转变：从 LLM 到 Agentic LLM 阅读全文

posted @ 2026-01-07 11:02 stardsd 阅读(1021) 评论(0) 推荐(0)

2026年1月6日

RLM：RECURSIVE LANGUAGE MODELS 递归语言模型，麻省理工学院

摘要：论文链接：https://arxiv.org/abs/2512.24601 我们从推理时扩展的角度出发，研究如何让大型语言模型（LLMs）能够处理任意长度的提示词。为此，我们提出了递归语言模型（RLMs）—— 这是一种通用的推理策略，它将长提示词视为外部环境的一部分，允许大型语言模型通过编程方式检查阅读全文

posted @ 2026-01-06 16:14 stardsd 阅读(361) 评论(0) 推荐(0)

2026年1月5日

Latex语法速查表

摘要： LaTeX 数学公式速查与实用指南一、四则运算 \[a + b - c \times d \div e \]a + b - c \times d \div e 二、幂运算与根式 \[a^x,\quad a^{xyz} \]a^x,\quad a^{xyz} \[\sqrt{x},\quad \sq 阅读全文

posted @ 2026-01-05 15:04 stardsd 阅读(45) 评论(0) 推荐(0)

2026年1月4日

流形约束超连接（mHC）：Manifold-Constrained Hyper-Connections

摘要： Deepseek这篇论文核心是给深度学习模型的“残差连接”做了个优化升级，解决了原有方案的稳定性和效率问题：先搞懂背景：什么是“残差连接”？深度学习模型（比如大语言模型、图像识别模型）里，“残差连接”是个基础操作——就像给信号开了条“绿色通道”，让浅层的信息能直接传到深层，不用绕远路。这样能避免阅读全文

posted @ 2026-01-04 10:30 stardsd 阅读(599) 评论(0) 推荐(0)

2025年12月29日

RLVR（Reinforcement Learning with Verifiable Rewards）可验证奖励强化学习

摘要： RLVR（Reinforcement Learning with Verifiable Rewards）是什么？ RLVR 是一种新型的强化学习训练范式，其核心思想是使用可程序化、自动验证的奖励信号来指导模型学习，不再依赖主观的人工打分或偏好模型，而是通过明确可验证的“对/错”结果来优化策略。这种阅读全文

posted @ 2025-12-29 16:18 stardsd 阅读(362) 评论(0) 推荐(0)

2025年12月15日

量子傅立叶变换（QFT）与Shor算法

摘要：下面说明：量子计算是如何“理论上”破解 RSA 和椭圆曲线加密（ECC）的你不需要量子物理背景，只要跟着“问题 → 数学 → 量子加速点”走。一、先给结论（避免迷路） RSA 和 ECC 之所以会被量子计算威胁，根本原因只有一个：它们都可以被转化为“周期/隐藏结构查找问题”，而量子计算在这类阅读全文

posted @ 2025-12-15 14:48 stardsd 阅读(101) 评论(0) 推荐(0)

2025年12月5日

2025Q4 AI行业季度报告

摘要： 2025年第四季度人工智能行业季度报告一、行业整体发展态势 2025年第四季度，人工智能行业进入"收入兑现"与"算力竞赛"双轮驱动的关键阶段。尽管2025Q4全球AI整体市场规模的直接数据尚未完全披露，但从头部企业动态与区域数据可看出，行业已从"技术演示"转向"商业闭环"与"算力深化"并行发展模式阅读全文

posted @ 2025-12-05 16:11 stardsd 阅读(147) 评论(0) 推荐(0)

美国能源部：GEMINA项目

摘要： Program Description计划说明 Generating Electricity Managed by Intelligent Nuclear Assets (GEMINA) aims to develop digital twin technology for advanced nuc 阅读全文

posted @ 2025-12-05 15:33 stardsd 阅读(40) 评论(0) 推荐(0)

2025年11月5日

智能体上下文引擎（Agentic Context Engine，ACE）

摘要：人工智能代理会随着每次任务的完成而变得更加智能🧠 Agentic Context Engine 会从代理的成功和失败中学习。只需接入系统，即可见证代理的改进。如果你觉得这个仓库有用，请给它点个星⭐️！ 🤖 LLM快速入门将您最喜欢的编码代理（Cursor、Claude Code、Codex 阅读全文

posted @ 2025-11-05 15:06 stardsd 阅读(239) 评论(0) 推荐(0)

2025年10月28日

Spec-Driven Development（SDD）

摘要：概览 — 什么是 Spec（或 Spec-Driven）编程？简单说，Spec-Driven Programming / Spec-Driven Development（SDD）是把“规格（spec）”从传统的需求文档升级为可执行、机器可理解的首要输入，由 AI/代码生成器直接把规格转换成实现、阅读全文

posted @ 2025-10-28 15:30 stardsd 阅读(2387) 评论(0) 推荐(0)

2025年10月9日

6G多站多智能超表面（RIS）

摘要：面向6G的多站多智能超表面（Multi-RIS for 6G）的原理机制和系统架构。 🧩 一、基础概念：RIS 是什么？ RIS（Reconfigurable Intelligent Surface，可重构智能超表面）是一种由大量可调单元（Meta-atoms）组成的超薄电磁表面。这些单元阅读全文

posted @ 2025-10-09 15:13 stardsd 阅读(396) 评论(0) 推荐(0)

2025年9月30日

DSA：DeepSeek Sparse Attention

摘要： DeepSeek-V3.2-Exp 是一个基于稀疏注意力机制（DSA，DeepSeek Sparse Attention）优化的长上下文处理模型，其核心创新在于高效地处理长序列输入，同时保持模型性能。 🧠 什么是 DSA（DeepSeek Sparse Attention）？ DSA 是 Deep 阅读全文

posted @ 2025-09-30 10:59 stardsd 阅读(446) 评论(0) 推荐(0)

从TVM到Tilelang：深度学习的编译

摘要：深度学习编译器 TVM 在深度学习的训练和推理过程中，性能优化是一个永恒的主题。不同的硬件（CPU、GPU、NPU、FPGA 等）有不同的计算特性，如果每次都手写 CUDA 内核或 ARM 汇编，不仅耗时，而且难以维护。这时，一个跨平台的深度学习编译器——Apache TVM (Tensor Vi 阅读全文

posted @ 2025-09-30 09:24 stardsd 阅读(1325) 评论(0) 推荐(1)

2025年8月29日

Apache SeaTunnel 指南

摘要：本文是一份面向工程师的 Apache SeaTunnel 上手文档，内容覆盖： SeaTunnel 的定位与原理架构组成安装与快速上手配置文件说明（含示例）典型应用场景（如日志采集、数据库同步、湖仓一体场景） Apache SeaTunnel 上手文档 1. SeaTunnel 简介与定位阅读全文

posted @ 2025-08-29 14:31 stardsd 阅读(948) 评论(0) 推荐(0)

2025年8月28日

RDMA & RoCE

摘要： RDMA (Remote Direct Memory Access) 和 RoCE (RDMA over Converged Ethernet)。 1. 背景：为什么需要 RDMA？在传统网络通信（TCP/IP 协议栈）中：内核协议栈开销大：每次传输都要在用户态和内核态之间切换，涉及拷贝、上下文阅读全文

posted @ 2025-08-28 16:03 stardsd 阅读(445) 评论(0) 推荐(0)

NL2DSL技术

摘要：本文先讲清楚 NL2SQL 与 NL2DSL 的本质差异，再用一个从中文到 DSL、再到 SQL 的完整闭环示例，展示 LLM 是如何生成 DSL 的。一、NL2SQL vs NL2DSL：核心差异维度 NL2SQL（自然语言→SQL） NL2DSL（自然语言→领域专用语言，再编译到SQL/其他阅读全文

posted @ 2025-08-28 15:22 stardsd 阅读(1068) 评论(0) 推荐(0)

2025年8月13日

eVTOL 制造：深入探讨当前趋势和未来机遇

摘要：电动垂直起降 (eVTOL) 飞机市场有望在未来几年实现显著增长，这将彻底改变城市空中交通，并彻底改变我们现有的交通方式。本报告深入探讨了 eVTOL 制造的现状，探索了塑造这一新兴行业的关键趋势、挑战和机遇。报告还探讨了复合材料等先进材料以及增材制造等尖端制造技术在推动创新和实现此类革命性飞机量产阅读全文

posted @ 2025-08-13 15:49 stardsd 阅读(182) 评论(0) 推荐(0)

2025年8月8日

可视化集成平台综述

摘要：开源实现： 1. Apache Superset 官网：https://superset.apache.org/ 介绍：Apache Superset 是 Apache 基金会维护的现代数据可视化和数据探索平台，支持实时数据连接和大屏仪表盘展示。特点：丰富的图表类型（折线、柱状、饼图、地图等）阅读全文

posted @ 2025-08-08 15:42 stardsd 阅读(163) 评论(0) 推荐(0)

低空经济：航空与商业新前沿的全面解析

摘要：执行摘要概要低空经济正在迅速崛起，成为一个由技术融合和战略政策共同驱动的、价值万亿美元的全球性机遇。它不仅仅是一个新兴行业，更是一种综合性的经济形态，旨在将经济活动从传统的二维地面延伸至三维的低空空域。本报告深入剖析了低空经济的技术基础、市场动态、产业格局和监管环境，旨在为战略投资者、企业高管和阅读全文

posted @ 2025-08-08 09:29 stardsd 阅读(376) 评论(0) 推荐(0)

全球低空经济研究报告

摘要：技术维度无人机和电动垂直起降飞行器（eVTOL）是低空经济的核心技术支撑。无人机技术已进入相对成熟阶段，被广泛应用于农业植保、物流配送、基础设施巡检等领域。eVTOL结合航空复合材料、高性能电池和智能飞行控制等尖端技术，目前多处于试飞和认证阶段。与此同时，5G/6G通信导航定位、AI自主飞行算法、阅读全文

posted @ 2025-08-08 09:20 stardsd 阅读(337) 评论(0) 推荐(0)

2025年8月7日

低空经济发展全景分析报告（Wind）

摘要：低空经济发展全景分析报告（基于Wind数据及行业动态）一、产业定义与政策环境低空经济指距地1000米以下空域的经济活动，涵盖eVTOL（电动垂直起降飞行器）、无人机、低空服务等。政策层面，国家将其纳入战略性新兴产业，30余省份出台专项规划（如安徽、湖南空域改革试点），推动空域开放、适航认证和场景阅读全文

posted @ 2025-08-07 16:31 stardsd 阅读(221) 评论(0) 推荐(0)

2025年7月18日

Python程序的打包与发布

摘要：一、使用 PyInstaller 打包 PyQt 程序 PyInstaller 是最简单高效的打包工具之一，支持大部分主流库（如 PyQt5/PyQt6、requests、numpy 等），适合快速封装桌面 GUI 应用。安装 PyInstaller pip install pyinstaller 阅读全文

posted @ 2025-07-18 19:15 stardsd 阅读(1453) 评论(0) 推荐(0)

2025年7月8日

智能体的L0～L5分级（Levels of agent automation，智能体自动化级别）

摘要： Table 4: Levels of agent automation 表4：智能体自动化级别 Level 等级 Description 描述 Key characteristics 关键特征 Examples 示例 Level 0: Manual (no automation) 0级：手动（无自动阅读全文

posted @ 2025-07-08 15:53 stardsd 阅读(673) 评论(0) 推荐(0)

赏月斋

慎终如始宁静致远

公告

赏月斋

慎终如始 宁静致远

公告

慎终如始宁静致远