随笔分类 -  机器人

神经网络模型与算法疑问与解答
摘要: 神经网络模型与算法疑问与解答神经网络模型与算法的复习总结。因为只是复习提纲,所以对理解分析内容不多,也不是学习笔记。精力所限,本人理解的也不深刻,只是把一些概念性的知识放上来。
425
1
0
ROS机械臂 Movelt 学习笔记5 | MoveIt Commander Scripting
摘要:ROS机械臂 Movelt 学习笔记5 | MoveIt Commander Scriptingmoveit_commander 包还包括一个命令行接口程序moveit_commander_cmdline.py. 可以通过一些简单的命令来替代编程。
1021
0
1
ROS机械臂 Movelt 学习笔记4 | Move Group 接口 Python
摘要:ROS机械臂 Movelt 学习笔记4 | Move Group 接口 PythonPython 的使用总是比 C++ 简单许多,Move Group 的 Python 接口更为便捷,也为使用者提供了很多用于操纵机器人和机械臂的函数,能够和 C++ 接口实现相同的功能:
2044
0
1
ROS机械臂 Movelt 学习笔记3 | kinect360相机(v1)相关配置
摘要:ROS机械臂 Movelt 学习笔记3 |  kinect360相机(v1)相关配置目标是做一个机械臂视觉抓取的demo,在基地里翻箱倒柜,没有找到学长所说的 d435,倒是找到了一个老古董 kinect 360。前几天就已经在旧电脑上配置好了,现在记录在新电脑上的配置过程。
1045
0
0
ROS机械臂 Movelt 学习笔记2 | Move Group 接口 C++
摘要:ROS机械臂 Movelt 学习笔记2 | Move Group 接口 C++Movelt为使用者提供了一个最通用且简单的接口类,这个接口提供了很多控制机器人的常用基本操作。
2483
0
2
ROS机械臂 Movelt 学习笔记1 | 基础准备
摘要:ROS机械臂 Movelt 学习笔记1 | 基础准备回顾总结ROS机械臂的相关知识,movelt 是 ROS机械臂的重要组件,通过movelt可以实现上层算法与控制系统以及机械结构的各层协调。
2439
3
1
强化学习-学习笔记15 | 连续控制
摘要:强化学习-学习笔记15 | 连续控制本系列的完结篇,介绍了连续控制情境下的强化学习方法,确定策略 DPG 和随机策略 AC 算法。
1957
0
1
强化学习-学习笔记14 | 策略梯度中的 Baseline
摘要:强化学习-学习笔记14 | 策略梯度中的 Baseline引入 baseline ,可以通过降低随机梯度造成的方差来加速强化学习的收敛,介绍了两种算法Reinforce with baseline 以及 A2C。
1011
0
0
强化学习-学习笔记13 | 多智能体强化学习
摘要:强化学习-学习笔记13 | 多智能体强化学习这一篇介绍重头戏:多智能体强化学习。多智能体要比之前的单智能体复杂很多。但也更有意思。
2608
0
0
强化学习-学习笔记12 | Dueling Network
摘要:强化学习-学习笔记12 | Dueling Network这是价值学习高级技巧第三篇,前两篇主要是针对 TD 算法的改进,而Dueling Network 对 DQN 的结构进行改进,能够大幅度改进DQN的效果。
940
0
0
强化学习-学习笔记11 | 解决高估问题
摘要:强化学习-学习笔记11 | 解决高估问题这是 价值学习高级技巧第二篇。在实际应用中DQN会引起高估,进而影响动作的正确选择。本文介绍的高估问题解决办法为:Target Network & Double DQN.
1081
0
1
强化学习-学习笔记10 | 经验回放
摘要:强化学习-学习笔记10 | 经验回放Experience Replay 经验回放。价值学习高级技巧第一篇。之前讲解的 价值学习的方法 都很简单,所以实现效果并不优秀。接下来会介绍一些高级的技巧,可以大幅度提高 DQN 的表现。Experience Replay 是最重要的技巧。
1638
0
0
强化学习-学习笔记9 | Multi-Step-TD-Target
摘要:强化学习-学习笔记9 | Multi-Step-TD-Target这篇笔记依然属于TD算法的范畴。Multi-Step-TD-Target 是对 TD算法的改进。在调整合适的i情况下,多步较于单步性能好很多。
1115
0
1
强化学习-学习笔记8 | Q-learning
摘要: 强化学习-学习笔记8 | Q-learning上一篇笔记认识了Sarsa,可以用来训练动作价值函数Qπ;本篇来学习Q-Learning,这是另一种 TD 算法,用来学习 最优动作价值函数 Q-star,这就是之前价值学习中用来训练 DQN 的算法。
716
1
2
强化学习-学习笔记7 | Sarsa算法原理与推导
摘要:强化学习-学习笔记7 | Sarsa算法原理与推导Sarsa算法 是 TD算法的一种,之前没有严谨推导过 TD 算法,这一篇就来从数学的角度推导一下 Sarsa 算法。注意,这部分属于 TD算法的延申。
1284
1
1
强化学习-学习笔记6 | 蒙特卡洛算法
摘要:强化学习-学习笔记6 | 蒙特卡洛算法Monte Carlo Algorithms. 蒙特卡洛算法是一大类随机算法,又称为随机抽样或统计试验方法,通过随机样本估计真实值,用随机逼近精确。
1416
0
2
强化学习-学习笔记5 | AlphaGo
摘要:强化学习-学习笔记5 | AlphaGo从强化学习的角度理解一下AlphaGo的实现思路,机器是如何在围棋这样高复杂度的情境下战胜人类的。通过这个实例加深对价值网络和策略网络的理解,并熟悉一下蒙特卡洛树搜索方法 MCTS。
1101
3
1
强化学习-学习笔记4 | Actor-Critic
摘要:强化学习-学习笔记4 | Actor-CriticRL中的价值学习和策略学习分别基于不同的思路完成对 agent 的自动控制,而actor-critic将两者结合在一起,策略网络扮演运动员的角色,价值网络扮演裁判的角色,分别训练,得到较为满意的结果。
2299
0
2
强化学习-学习笔记3 | 策略学习
摘要:强化学习-学习笔记3 | 策略学习继续学习强化学习,介绍强化学习另一大分支策略学习,以及策略学习的一种经典实现方式Policy Network,以及策略网络 的训练算法 策略梯度算法。
1044
0
0
强化学习-学习笔记2 | 价值学习
摘要:强化学习-学习笔记2 | 价值学习继续学习强化学习,介绍强化学习两大分支之一的价值学习,以及价值学习的一种经典实现方式DQN,以及DQN的训练算法TD learning.
1043
0
1
点击右上角即可分享
微信分享提示
深色
回顶
收起
  1. 1 尚好的青春 孙燕姿
  2. 2 孙燕姿
  3. 3 克卜勒 孙燕姿
- 孙燕姿
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.