摘要: 神经网络解决连续状态空间(或者状态很多的情况) 经验回放 使得神经网络更拟合 打乱状态之间的关联 固定q 多加一个q预测值的神经网络 一段时间才会改变 以此固定q 让强化学习收敛更平稳 注意的是:因为多了固定q的方法,所以实际上有两个网络,一个model,另外一个target_model网络 mod 阅读全文
posted @ 2022-09-04 20:16 atomxing 阅读(42) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/342919579 好用的强化学习算法是? 超参数很容易调整或确定。SAC的 reward scaling 可以在训练前直接推算出来。PPO超参数的细微改变不会极大地影响训练 训练快,收敛稳、得分高。看下面的学习曲线 learning cur 阅读全文
posted @ 2022-09-04 20:15 atomxing 阅读(2367) 评论(0) 推荐(0) 编辑
摘要: 数据结构出发 红黑树,最小堆,时间轮,跳表 4.分布式场景下:定时器设计 应用场景出发 单线程,多线程,分布式场景 定时器定位;服务器是怎么驱动逻辑的? 网络事件、定时事件、信号事件 怎么实现定时器? 单线程环境下: 通常与网络事件协调处理; 多线程环境下: 单独的定时器进行处理定时事件; 源码: 阅读全文
posted @ 2022-09-04 20:12 atomxing 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 为什么使用likely与unlikely 在Linux kernel的源码中,存在这样的用法: if (likely(cond)) { ...... } if (unlikely(cond)) { ...... } likely和unlikely是宏定义,若cond为真(非0),那么likely(c 阅读全文
posted @ 2022-09-04 20:09 atomxing 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 书中有很多内容讲的是内存的操作 阅读全文
posted @ 2022-09-04 20:08 atomxing 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-09-04 20:08 atomxing 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-09-04 20:07 atomxing 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2022-09-04 20:07 atomxing 阅读(13) 评论(0) 推荐(0) 编辑