机器人 - 随笔分类 - climerecho

神经网络模型与算法疑问与解答

摘要：

神经网络模型与算法的复习总结。因为只是复习提纲，所以对理解分析内容不多，也不是学习笔记。精力所限，本人理解的也不深刻，只是把一些概念性的知识放上来。阅读全文

posted @ 2022-10-26 21:40 climerecho 阅读(514) 评论(1) 推荐(0)

ROS机械臂 Movelt 学习笔记5 | MoveIt Commander Scripting

摘要：

moveit_commander 包还包括一个命令行接口程序moveit_commander_cmdline.py. 可以通过一些简单的命令来替代编程。阅读全文

posted @ 2022-08-11 18:51 climerecho 阅读(1202) 评论(0) 推荐(1)

ROS机械臂 Movelt 学习笔记4 | Move Group 接口 Python

摘要：

Python 的使用总是比 C++ 简单许多，Move Group 的 Python 接口更为便捷，也为使用者提供了很多用于操纵机器人和机械臂的函数，能够和 C++ 接口实现相同的功能：阅读全文

posted @ 2022-08-06 16:22 climerecho 阅读(2501) 评论(0) 推荐(1)

ROS机械臂 Movelt 学习笔记3 | kinect360相机(v1)相关配置

摘要：

目标是做一个机械臂视觉抓取的demo，在基地里翻箱倒柜，没有找到学长所说的 d435，倒是找到了一个老古董 kinect 360。前几天就已经在旧电脑上配置好了，现在记录在新电脑上的配置过程。阅读全文

posted @ 2022-07-24 23:35 climerecho 阅读(1191) 评论(0) 推荐(0)

ROS机械臂 Movelt 学习笔记2 | Move Group 接口 C++

摘要：

Movelt为使用者提供了一个最通用且简单的接口类，这个接口提供了很多控制机器人的常用基本操作。阅读全文

posted @ 2022-07-22 19:05 climerecho 阅读(3132) 评论(0) 推荐(2)

ROS机械臂 Movelt 学习笔记1 | 基础准备

摘要：

回顾总结ROS机械臂的相关知识，movelt 是 ROS机械臂的重要组件，通过movelt可以实现上层算法与控制系统以及机械结构的各层协调。阅读全文

posted @ 2022-07-21 15:57 climerecho 阅读(3046) 评论(3) 推荐(1)

强化学习-学习笔记15 | 连续控制

摘要：

本系列的完结篇，介绍了连续控制情境下的强化学习方法，确定策略 DPG 和随机策略 AC 算法。阅读全文

posted @ 2022-07-14 21:27 climerecho 阅读(2392) 评论(0) 推荐(1)

强化学习-学习笔记14 | 策略梯度中的 Baseline

摘要：

引入 baseline ，可以通过降低随机梯度造成的方差来加速强化学习的收敛，介绍了两种算法Reinforce with baseline 以及 A2C。阅读全文

posted @ 2022-07-12 11:29 climerecho 阅读(1422) 评论(0) 推荐(0)

强化学习-学习笔记13 | 多智能体强化学习

摘要：

这一篇介绍重头戏：多智能体强化学习。多智能体要比之前的单智能体复杂很多。但也更有意思。阅读全文

posted @ 2022-07-10 00:33 climerecho 阅读(3187) 评论(0) 推荐(1)

强化学习-学习笔记12 | Dueling Network

摘要：

这是价值学习高级技巧第三篇，前两篇主要是针对 TD 算法的改进，而Dueling Network 对 DQN 的结构进行改进，能够大幅度改进DQN的效果。阅读全文

posted @ 2022-07-09 13:58 climerecho 阅读(1272) 评论(0) 推荐(0)

强化学习-学习笔记11 | 解决高估问题

摘要：

这是价值学习高级技巧第二篇。在实际应用中DQN会引起高估，进而影响动作的正确选择。本文介绍的高估问题解决办法为：Target Network & Double DQN. 阅读全文

posted @ 2022-07-08 17:31 climerecho 阅读(1316) 评论(0) 推荐(1)

强化学习-学习笔记10 | 经验回放

摘要：

Experience Replay 经验回放。价值学习高级技巧第一篇。之前讲解的价值学习的方法都很简单，所以实现效果并不优秀。接下来会介绍一些高级的技巧，可以大幅度提高 DQN 的表现。Experience Replay 是最重要的技巧。阅读全文

posted @ 2022-07-08 11:43 climerecho 阅读(2111) 评论(0) 推荐(0)

强化学习-学习笔记9 | Multi-Step-TD-Target

摘要：

这篇笔记依然属于TD算法的范畴。Multi-Step-TD-Target 是对 TD算法的改进。在调整合适的i情况下，多步较于单步性能好很多。阅读全文

posted @ 2022-07-07 20:39 climerecho 阅读(1358) 评论(0) 推荐(1)

强化学习-学习笔记8 | Q-learning

摘要：

上一篇笔记认识了Sarsa，可以用来训练动作价值函数Qπ；本篇来学习Q-Learning，这是另一种 TD 算法，用来学习最优动作价值函数 Q-star，这就是之前价值学习中用来训练 DQN 的算法。阅读全文

posted @ 2022-07-07 16:09 climerecho 阅读(864) 评论(1) 推荐(2)

强化学习-学习笔记7 | Sarsa算法原理与推导

摘要：

Sarsa算法是 TD算法的一种，之前没有严谨推导过 TD 算法，这一篇就来从数学的角度推导一下 Sarsa 算法。注意，这部分属于 TD算法的延申。阅读全文

posted @ 2022-07-07 12:23 climerecho 阅读(1608) 评论(1) 推荐(1)

强化学习-学习笔记6 | 蒙特卡洛算法

摘要：

Monte Carlo Algorithms. 蒙特卡洛算法是一大类随机算法，又称为随机抽样或统计试验方法，通过随机样本估计真实值，用随机逼近精确。阅读全文

posted @ 2022-07-06 18:11 climerecho 阅读(1833) 评论(0) 推荐(3)

强化学习-学习笔记5 | AlphaGo

摘要：

从强化学习的角度理解一下AlphaGo的实现思路，机器是如何在围棋这样高复杂度的情境下战胜人类的。通过这个实例加深对价值网络和策略网络的理解，并熟悉一下蒙特卡洛树搜索方法 MCTS。阅读全文

posted @ 2022-07-06 11:56 climerecho 阅读(1555) 评论(3) 推荐(1)

强化学习-学习笔记4 | Actor-Critic

摘要：

RL中的价值学习和策略学习分别基于不同的思路完成对 agent 的自动控制，而actor-critic将两者结合在一起，策略网络扮演运动员的角色，价值网络扮演裁判的角色，分别训练，得到较为满意的结果。阅读全文

posted @ 2022-07-05 18:37 climerecho 阅读(3082) 评论(0) 推荐(2)

强化学习-学习笔记3 | 策略学习

摘要：

继续学习强化学习，介绍强化学习另一大分支策略学习，以及策略学习的一种经典实现方式Policy Network，以及策略网络的训练算法策略梯度算法。阅读全文

posted @ 2022-07-05 11:55 climerecho 阅读(1292) 评论(0) 推荐(0)

强化学习-学习笔记2 | 价值学习

摘要：

继续学习强化学习，介绍强化学习两大分支之一的价值学习，以及价值学习的一种经典实现方式DQN，以及DQN的训练算法TD learning. 阅读全文

posted @ 2022-07-04 18:48 climerecho 阅读(1225) 评论(0) 推荐(1)

Clivia Du

A student of CS who enjoys electronic design

随笔分类 - 机器人

公告