摘要: 思想:当前状态的价值和下一步的价值和当前的奖励有关。价值函数分解为当前奖励和下一步价值函数两部分,类似于递归的思想 例如在上面这个图中。vπ(s)是状态s的价值函数。π(a|s)是状态s下执行行为a的概率,Rsa是对应的即时奖励,是在状态S下执行了动作a之后转移到状态S′的概率。 上面这个图就是实际 阅读全文
posted @ 2020-04-02 11:15 地球上最后一个直男 阅读(1075) 评论(0) 推荐(0) 编辑
摘要: 马尔科夫决策要求 1.能够检测到理想状态 2.可以多次尝试采取不同动作 3.系统的下一个状态只与当前状态有关,而与之前的状态无关。在决策过程中还和当前采取的动作有关。 马尔科夫决策过程与5个因素有关: S:表示状态集 A:表示一组动作 P:表示状态转移概率。Psa表示在当前状态S下,执行动作a,转移 阅读全文
posted @ 2020-04-02 10:57 地球上最后一个直男 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 智能体(agent) 例如alpha-go中的棋盘,用于产生动作的主体就是智能体。 状态(state) l例如当前棋盘中的局势就是状态,表示的是主体执行动作之前需要考虑的外部环境 动作(action) 例如下围棋中的落子,表示智能体在某个状态下采取的一个行为 奖励(reward) 例如当某一步有利于 阅读全文
posted @ 2020-04-02 00:05 地球上最后一个直男 阅读(184) 评论(0) 推荐(0) 编辑