摘要: 强化学习在连续时间系统问题上求解相比于离散时间系统而言更加的困难,因此发展受到了延迟。下面讨论一下原因 考虑到一个连续时间的非线性动态规划系统 \(\dot{x}=f(x)+g(x)u(83)\) 目标导向的最优行为的概念是通过定义与反馈控制策略相关联的性能度量或成本函数来捕获的 \(V^\mu(x 阅读全文
posted @ 2021-08-23 12:42 吃瓜的哲学 阅读(954) 评论(2) 推荐(0) 编辑
摘要: 1 简介 每一个生物都与其环境相互作用,并利用这些相互作用来改善自身的活动,以生存和增长。我们称基于与环境交互的动作修正为强化学习(RL)。这里有很多类型的学习,包括监督学习,非监督学习等。强化学习是指一个行动者或代理与它的环境相互作用,根据收到的刺激对其行为的响应,并修改其行为或控制政策。 有一类 阅读全文
posted @ 2021-08-23 12:34 吃瓜的哲学 阅读(3898) 评论(0) 推荐(2) 编辑
摘要: 1 基础概念 动态规划是利用最优性原理来解决最优和最优控制问题的一个非常有用的工具。最优性原则可以表示为:“最优策略具有这样的性质:无论初始状态和初始决策是什么,其余决策都必须构成与第一个决策产生的状态相关的最优策略。” 动态规划有几个方面。人们可以考虑离散时间系统或连续时间系统,线性系统或非线性系 阅读全文
posted @ 2021-08-21 21:25 吃瓜的哲学 阅读(9160) 评论(0) 推荐(2) 编辑
摘要: 以离散时间系统为例,对自适应动态规划(Adaptive Dynamic Programming,ADP)中Action Network和Critic Network两个网络的更新方式进行说明。 一、系统定义 1.状态方程 state equation ${X_{k + 1}} = {F_k}({X_ 阅读全文
posted @ 2021-08-10 16:54 吃瓜的哲学 阅读(1309) 评论(0) 推荐(1) 编辑
摘要: 1、Ros的常用命令 rostopic rosservice rosnode rosparam rosmsg rossrv 2、例子 运行roscore#作用是启动ros master 运行rosrun turtlesim turtlesim_node#启动海龟仿真器 运行rosrun turtle 阅读全文
posted @ 2020-09-10 16:17 吃瓜的哲学 阅读(660) 评论(0) 推荐(0) 编辑
摘要: 机器人操作系统(Robot Operating System,ROS)用于编写机器人软件程序的一种具有高度灵活性的软件架构。本篇内容用于记录ROS的安装过程。 1、更换Ubuntu软件源 默认的软件源下载速度过慢,因此需要更换国内的软件源提高下载速度,具体过程可以自行百度,或者参考(https:// 阅读全文
posted @ 2020-09-08 15:39 吃瓜的哲学 阅读(1032) 评论(0) 推荐(0) 编辑
摘要: Ubuntu一般都会默认包含Intel显卡的驱动,但是如果出现画面卡顿异常很大可能是因为显卡驱动的问题,Ubuntu16.04中默认内核版本为4.4,但4.4内核不包含Intel HD Graphics 630的驱动。首先尝试了网上很多方法,下载intel-graphics-update-tool_ 阅读全文
posted @ 2020-09-07 16:05 吃瓜的哲学 阅读(2095) 评论(0) 推荐(0) 编辑
摘要: 当你在win上下载安装好TORCS和patch之后(如果不会请翻看之前的文章),你可以点击安装目录中的wtorcs.exe来启动客户端 TORCS总共有以下竞赛模式 其中practice模式只能选择一个机器人 当你选择好金赛模式之后,可以通过configure race来选择地图和对手 在选择对手一 阅读全文
posted @ 2020-06-17 12:20 吃瓜的哲学 阅读(1450) 评论(0) 推荐(0) 编辑
摘要: 1、安装TORCS的win版本 下载地址:https://sourceforge.net/projects/torcs/files/all-in-one/ 注意:安装一切默认即可,记住好安装目录,过会要用 2、下载安装接口 patch地址:https://sourceforge.net/projec 阅读全文
posted @ 2020-06-15 12:12 吃瓜的哲学 阅读(1509) 评论(0) 推荐(0) 编辑
摘要: 自编码(Autoencoder)介绍 Autoencoder是一种无监督的学习算法,将输入信息进行压缩,提取出数据中最具代表性的信息。其目的是在保证重要特征不丢失的情况下,降低输入信息的维度,减小神经网络的处理负担。简单来说就是提取输入信息的特征。类似于主成分分析(Principal Compone 阅读全文
posted @ 2020-01-06 18:17 吃瓜的哲学 阅读(8785) 评论(0) 推荐(0) 编辑