随笔分类 - 🍅 人工智能

LLM | 正在尝试使用 verl

摘要：主要参考官方文档，介绍了如何基于 verl 使用 RL 微调大模型。阅读全文

posted @ 2026-01-20 16:20 MoonOut 阅读(86) 评论(0) 推荐(0)

LLM | 正在尝试使用 LLaMA-Factory

摘要：主要参考知乎博客，介绍了如何基于 LLaMA-Factory 部署和 SFT 微调大模型。阅读全文

posted @ 2026-01-10 17:22 MoonOut 阅读(47) 评论(0) 推荐(0)

Contrastive Learning 对比学习 | InfoNCE loss 与互信息的数学关联

摘要：InfoNCE loss 可以表示互信息的下界：I(X;Y) ≥ log N - L_InfoNCE 。阅读全文

posted @ 2026-01-02 20:07 MoonOut 阅读(806) 评论(0) 推荐(0)

RL | 如何推导 MaxEnt RL（最大熵 RL）的策略形式 π(a|s) ∝ exp(Q(s, a))

摘要：考虑一步策略改进，把选 action 的概率 $\pi (a|s)$ 当作变量，$\sum \pi (a|s) = 1$ 作为约束条件，使用拉格朗日乘子 $\lambda$ 干掉。对 $V^\text{new}(s)$ 求偏导，偏导数 = 0。阅读全文

posted @ 2025-06-07 21:31 MoonOut 阅读(221) 评论(0) 推荐(0)

RL 基础 | 如何复现 PPO，以及一些踩坑经历

摘要：记录一下最近复现 PPO 的过程…… 阅读全文

posted @ 2024-11-21 16:29 MoonOut 阅读(2568) 评论(0) 推荐(1)

RL 基础 | 如何使用 OpenAI Gym 接口，搭建自定义 RL 环境（详细版）

摘要：需实现 env.__init__() , obs = env.reset() , obs, reward, done, info = env.step(action) 函数。阅读全文

posted @ 2024-11-11 22:53 MoonOut 阅读(908) 评论(0) 推荐(0)

RL 基础 | Policy Gradient 的推导

摘要：如果想最大化期望下的 R(τ)，那么策略梯度 = R(τ) · Σ ▽log π(a|s) ，即 discounted return × Σ 梯度 log [选取该 action 的概率] 。阅读全文

posted @ 2024-03-21 16:46 MoonOut 阅读(441) 评论(0) 推荐(0)

python · matplotlib | seaborn 画图与调整图例位置

摘要：画图代码的存档。阅读全文

posted @ 2024-02-20 11:29 MoonOut 阅读(629) 评论(0) 推荐(0)

RL 基础 | Policy Iteration 的收敛性证明

摘要：1. Policy Evaluation 会收敛，因为贝尔曼算子是压缩映射；2. Policy Improvement 有策略性能改进的保证。阅读全文

posted @ 2023-11-02 10:44 MoonOut 阅读(633) 评论(3) 推荐(0)

RL 基础 | Value Iteration 的收敛性证明

摘要：贝尔曼算子 BV = max[r(s,a) + γV(s')] 是压缩映射，因此 {V, BV, B²V, ...} 是柯西序列，会收敛到 V=BV 的不动点。阅读全文

posted @ 2023-10-24 09:40 MoonOut 阅读(1218) 评论(0) 推荐(0)

RL 基础 | 如何注册自定义 gym 环境

摘要：感谢善良的知乎博客🙏🏻 阅读全文

posted @ 2023-05-31 10:59 MoonOut 阅读(210) 评论(0) 推荐(0)

python · matplotlib | 如何绘制子图

摘要：subplots 子图，scatter 散点图，plot 连点成线，color 与 fontsize。阅读全文

posted @ 2023-05-26 10:55 MoonOut 阅读(106) 评论(0) 推荐(0)

python 基础 | 实现微秒级计时

摘要：使用 python datetime 库，实现微秒级计时。阅读全文

posted @ 2023-05-25 21:52 MoonOut 阅读(188) 评论(0) 推荐(0)

RL 基础 | 如何搭建自定义 gym 环境

摘要：主要就是 __init__, step, reset 三个方法，① __init__ 要记得定义 state action space，② step 返回 (obs, reward, done, info)，③ reset 返回 obs。返回的 obs 要用 np.ndarray 表示。阅读全文

posted @ 2023-03-03 11:03 MoonOut 阅读(452) 评论(0) 推荐(0)

python · pytorch | NN 训练常用代码存档

摘要：① pandas 读 csv，② 基于 pytorch 的模型搭建、训练、测试。阅读全文

posted @ 2023-03-02 15:49 MoonOut 阅读(119) 评论(1) 推荐(0)

python 基础 | 虚拟环境搭建全流程

摘要：在装服务器 python 环境，顺便整理一下 python 虚拟环境（venv）搭建全流程阅读全文

posted @ 2022-12-22 11:47 MoonOut 阅读(231) 评论(1) 推荐(0)

DL 基础 | cs231n assignment 2

摘要：20210913 - 20211005。cs231n，assignment 2。阅读全文

posted @ 2021-10-05 21:10 MoonOut 阅读(368) 评论(0) 推荐(0)

DL 基础 | cs231n assignment 1

摘要：20210804 - 20210808。cs231n，assignment 1。阅读全文

posted @ 2021-08-08 11:15 MoonOut 阅读(165) 评论(0) 推荐(0)