摘要:
神经网络解决连续状态空间(或者状态很多的情况) 经验回放 使得神经网络更拟合 打乱状态之间的关联 固定q 多加一个q预测值的神经网络 一段时间才会改变 以此固定q 让强化学习收敛更平稳 注意的是:因为多了固定q的方法,所以实际上有两个网络,一个model,另外一个target_model网络 mod 阅读全文
摘要:
https://zhuanlan.zhihu.com/p/342919579 好用的强化学习算法是? 超参数很容易调整或确定。SAC的 reward scaling 可以在训练前直接推算出来。PPO超参数的细微改变不会极大地影响训练 训练快,收敛稳、得分高。看下面的学习曲线 learning cur 阅读全文
摘要:
数据结构出发 红黑树,最小堆,时间轮,跳表 4.分布式场景下:定时器设计 应用场景出发 单线程,多线程,分布式场景 定时器定位;服务器是怎么驱动逻辑的? 网络事件、定时事件、信号事件 怎么实现定时器? 单线程环境下: 通常与网络事件协调处理; 多线程环境下: 单独的定时器进行处理定时事件; 源码: 阅读全文
摘要:
为什么使用likely与unlikely 在Linux kernel的源码中,存在这样的用法: if (likely(cond)) { ...... } if (unlikely(cond)) { ...... } likely和unlikely是宏定义,若cond为真(非0),那么likely(c 阅读全文
摘要:
书中有很多内容讲的是内存的操作 阅读全文
摘要:
阅读全文
摘要:
阅读全文
摘要:
阅读全文