摘要: 1. 问题描述 重复在k个选项或动作中进行选择,每次做出选择后,你都会得到一个收益,收益由你选择的动作决定的平稳概率分布产生【action P(val)】,你的目标是在某段时间内最大化总收益的期望 1.1 基本符号定义 $A_t$:t时刻选择的动作 $R_t:A_t$对应的收益 $q_ (a)$:任 阅读全文
posted @ 2019-10-27 16:41 benda 阅读(444) 评论(0) 推荐(0) 编辑
摘要: 1. 基本介绍 1.1 基本思想 智能体为了实现目标而不断与环境产生交互的过程中,抓住智能体所面对的真实问题的主要方面。具备学习能力的智能体必须在某种程度上感知环境的状态,然后采取动作并影响环境状态,智能体必须同时拥有和环境状态有关的一个或多个明确的目标。 1.2 关键特征 试探与开发的这种权衡 明 阅读全文
posted @ 2019-10-27 16:40 benda 阅读(339) 评论(0) 推荐(0) 编辑