2023 年 7月 17 日随笔档案 - 仔仔的棒棒糖

2023年7月17日

摘要： ###1. 连续动作空间VS离散动作空间【离散动作空间】Q表格、SARSA、on-policy以及off-policy、Q-learing []()https://blog.csdn.net/zbp_12138/article/details/106837306 【连续动作空间】用神经网络的方法阅读全文

posted @ 2023-07-17 21:08 仔仔的棒棒糖阅读(137) 评论(0) 推荐(0) 编辑

KL-Divergence KL散度

摘要： ###KL散度（KL-divergence）直观解释：KL 散度是一种衡量两个分布（比如两条线）之间的匹配程度的方法。需要解决的问题：已知数据太大，逍遥使用较小的信息表示已知数据。用某种已知分布来表示真实统计数据，这样我们就可以只发送该分布的参数，而无需发送真实统计数据。 KL-divergen 阅读全文

posted @ 2023-07-17 21:07 仔仔的棒棒糖阅读(58) 评论(0) 推荐(0) 编辑

RLChina2022-实践课三：强化学习算法

摘要： ###MDP算法 MDP被定义为一个元组(S,A,P,r,R) S:所有状态集合 A:在环境力里面智能体所作动作的集合 P:状态转移函数P(s'|s,a)，智能体在当前s下，执行a之后，转移到是s'的概率 R:奖励函数R(s,a),表示在环境s下执行动作a之后获得的立即奖励，有时候还需要知道s'是多阅读全文

posted @ 2023-07-17 21:07 仔仔的棒棒糖阅读(13) 评论(0) 推荐(0) 编辑

RLChina理论三：强化学习基础

摘要： ###强化学习基础 ![](https://img2023.cnblogs.com/blog/1577777/202302/1577777-20230203124432670-1477841240.png) ![](https://img2023.cnblogs.com/blog/1577777/2 阅读全文

posted @ 2023-07-17 21:07 仔仔的棒棒糖阅读(41) 评论(0) 推荐(0) 编辑

[论文研读]空天地一体化(SAGIN)的网络安全_A_Survey_on_Space-Air-Ground-Sea_Integrated_Network_Security_in_6G

摘要： ** 恢复内容开始 ** ## 空天地一体化(SAGIN)的网络安全 **目前关注的方面：** 集中在安全通信、入侵检测、侧通道攻击、GPS欺骗攻击、网络窃听、消息修改/注入等方面，有些侧重于分析现有的安全威胁[20]、[21]，有些提出了他们的攻击方法[14]、[22]，还有一些则更多地侧重于SA 阅读全文

posted @ 2023-07-17 21:06 仔仔的棒棒糖阅读(149) 评论(0) 推荐(0) 编辑

RLChina2022公开课-博弈搜索算法

摘要： ###序列决策 ![](https://img2023.cnblogs.com/blog/1577777/202301/1577777-20230111151224042-473778128.png) **序列决策问题一般用马尔可夫决策模型进行描述** ![](https://img2023.cnb 阅读全文

posted @ 2023-07-17 21:06 仔仔的棒棒糖阅读(27) 评论(0) 推荐(0) 编辑

RLChina2022公开课-博弈论

摘要： ###纯博弈：单纯的动机组合，离散的集合 ###混合博弈：加入了概率论，以百分比的概率执行不同的的动机。，概率分布零和博弈、合作博弈、协同博弈 ###扩展博弈和非完美信息 ###扩展博弈、贝叶斯博弈 ###纳什均衡任何一位玩家在此策略组合下单方面改变自己的策略（其他玩家策略不变）都不会提高自阅读全文

posted @ 2023-07-17 21:05 仔仔的棒棒糖阅读(92) 评论(0) 推荐(0) 编辑

仔仔的棒棒糖

公告