摘要: 1、介绍 1.1、探索方案的策略 1) 随机探索 2) 面对不确定性保持乐观: 估计不确定的值; 选择不确定最大的探索 3) 信息状态空间: 把代理的信息看做值的一部分; 考虑那些有助于提高reward的收益 1.2、探索的方式 1) 在状态-动作空间泰索 2) 在参数空间探索 优势: 连续探索 劣 阅读全文