会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
gongzb
博客园
首页
新随笔
联系
订阅
管理
2025年7月4日
统计学习方法:核函数(Kernel function)
摘要: 链接:http://www.cnblogs.com/xingshansi/p/6767980.html 一、核函数基本概念 先来看看核函数的定义: 核函数:是映射关系的内积,映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数,这通常是我们希望的。
阅读全文
posted @ 2025-07-04 23:04 有何m不可
阅读(0)
评论(0)
推荐(0)
2025年6月26日
强化学习之图解PPO算法和TD3算法
摘要: 转自:https://zhuanlan.zhihu.com/p/384497349 关于on-policy和off-policy的定义,网上有很多不同的讨论,比较常见的说法是看behavior policy(行为策略,即与环境进行交互的策略)和target policy(目标策略,即学习准确地评估Q
阅读全文
posted @ 2025-06-26 23:23 有何m不可
阅读(41)
评论(0)
推荐(0)
强化学习之图解SAC算法
摘要: SAC算法简介 转自:https://zhuanlan.zhihu.com/p/385658411 柔性动作-评价(Soft Actor-Critic,SAC)算法的网络结构有5个。SAC算法解决的问题是 离散动作空间和连续动作空间 的强化学习问题,是 off-policy 的强化学习算法(关于on
阅读全文
posted @ 2025-06-26 22:38 有何m不可
阅读(9)
评论(0)
推荐(0)
2025年6月25日
SAC为啥需要重参数化
摘要: 一、所有 Actor-Critic 算法都需要对\(\log\pi_\theta(a|s)\)求导 1. 策略梯度定理的统一形式 所有策略梯度算法的核心公式均基于策略梯度定理: \(\nabla_\theta J(\pi_\theta) \approx \mathbb{E}_{s\sim\rho^\
阅读全文
posted @ 2025-06-25 15:10 有何m不可
阅读(4)
评论(0)
推荐(0)
2025年6月24日
大模型瘦身术:入门模型剪枝(Pruning),以Qwen2.5:0.5B为例
摘要: 转自:https://zhuanlan.zhihu.com/p/1916158805592474228 随着大语言模型(LLM)的参数量一路飙升,其巨大的部署成本和推理延迟成为了阻碍其广泛应用的关键瓶颈。如何在保持模型性能的同时,有效减小其体积?模型剪枝(Model Pruning) 正是解决这一问
阅读全文
posted @ 2025-06-24 18:48 有何m不可
阅读(27)
评论(0)
推荐(0)
2025年6月22日
强化学习中的奇怪概念(一)——On-policy与off-policy
摘要: 转自:https://zhuanlan.zhihu.com/p/346433931 本文主要介绍和梳理on-policy/off-policy概念,文章中内容的逻辑结构(同每小节标题)如下: 策略需要有探索能力(随机性) 策略如何做到随机探索? Off-policy方法——将收集数据当做一个单独的任
阅读全文
posted @ 2025-06-22 19:52 有何m不可
阅读(23)
评论(0)
推荐(0)
强化学习确定性策略与随机性策略区别
摘要: 强化学习中的确定性策略与随机性策略是两种核心策略类型,其区别体现在策略表示、决策方式、探索能力、应用场景等多个维度。以下从技术原理和实际应用角度展开详细分析: 一、核心定义与数学表达 1. 确定性策略(Deterministic Policy) 定义:给定状态 s,策略直接输出唯一确定的动作 a,表
阅读全文
posted @ 2025-06-22 17:59 有何m不可
阅读(18)
评论(0)
推荐(0)
off-policy 算法的核心机制
摘要: off-policy 算法能通过 \(Q_\pi(s, a)\) 优化目标策略,关键在于引入重要性采样(Importance Sampling) 或最大化操作: 重要性采样:通过权重修正行为策略与目标策略的差异,如 TD (0) off-policy 算法。 最大化操作:如 Q-learning 直
阅读全文
posted @ 2025-06-22 17:51 有何m不可
阅读(4)
评论(0)
推荐(0)
深度强化学习】Gumbel-Softmax:离散随机变量的重参数化(reparameterization)
摘要: 转自:https://zhuanlan.zhihu.com/p/551255387 以DDPG为代表的确定性策略梯度算法只适用于连续动作空间的任务,为了让这些算法能够处理离散动作空间的任务,需要对其进行Gumbel-Softmax处理,这篇笔记将从强化学习的角度出发,对为什么需要以及怎么使用Gumb
阅读全文
posted @ 2025-06-22 16:36 有何m不可
阅读(37)
评论(0)
推荐(0)
强化学习中的重要性采样(Importance Sampling)
摘要: 转自:https://www.yuque.com/chenjiarui-i3tp3/sv7cbq/afns6z 1. 前言 重要性采样(Importance Sampling)其实是强化学习中比较重要的一个概念,但是大部分初学者似乎对这一点不是很懂,甚至没有听过这个概念。其实这是因为目前深度强化学习
阅读全文
posted @ 2025-06-22 16:06 有何m不可
阅读(29)
评论(0)
推荐(0)
下一页
公告