Exploration and Exploitation - 探索和利用
Exploration and Exploitation(探索和利用)是强化学习需要去平衡的一个点,即我应该去探索新的选项还是充分利用我已经有的选项以取得最大收益(博主注),它是强化学习一个非常重要的点,而且是非常依赖领域的,比如针对顾客、学生、患者等,不同的领域探索和利用的侧重会有所不同。
Exploration and Exploitation
Agent只能体会到它尝试的那些动作,这明显会产生一个进退两难的窘境。
因为Agent必须在基于先前经验看起来是好的事情(Exploitation)和未来可能会是好的事情之间做权衡(Exploration)。
强化学习Agent应该如何平衡它的动作?
- Exploration(探索):尝试可能能够使得agent在未来做出更好决策的新事物。
- Exploitation(利用):给定过去的经验选择能期望产生好的回报的动作。
通常会有一个exploration-exploitation的权衡:
可能不得不牺牲奖励以以便去探索和学习潜在的更好的策略。
Evaluation和control
评估
- 估计/预测一个给定策略的奖励期望。
在强化学习中,我们可以脱离策略实现对它的评估。这意味着我们可以使用从其他策略收集到的数据来评估一些反直觉的不同的策略会怎样做。这非常有用,因为我们不需要以测试的方式穷尽所有的策略。
控制
- 最优化:找到最佳的策略。