摘要: 1.强化学习与传统控制流程对比 传统控制流程:强化学习流程:reference:控制量(一般是根据某个性能指标进行控制:比如滑移率)。Part of reward function and observations:部分R、部分S,输入Agent( Agent = RL algorithm+poli 阅读全文
posted @ 2020-07-28 17:30 Feynmania 阅读(1218) 评论(0) 推荐(0) 编辑
摘要: 1.1 CAN总线输出数据表头: 解析CAN数据的相关基础知识: 1.channel:CAN通道。 2.Identifier:在某个时间点发送一条报文,该报文的ID号,将这个ID号对照解析文件,从而进行报文解析。 3.Is Standard:判断是否是标准帧。 CAN的消息帧格式有两种,分别是CAN 阅读全文
posted @ 2020-07-28 14:58 Feynmania 阅读(6498) 评论(0) 推荐(1) 编辑
摘要: 贝尔曼最优方程推导(来源:B站up主:shuhuai008) 1.明确一下概念间的关系 2.反证法证明 v*(s)=max(a)_q*(s,a) 3.“套娃”得到贝尔曼最优方程 参考资料: 1.https://www.bilibili.com/video/BV1RA411q7wt?p=5,B站UP主 阅读全文
posted @ 2020-07-28 11:26 Feynmania 阅读(2175) 评论(0) 推荐(1) 编辑