2020 年 4月 2 日随笔档案 - 地球上最后一个直男

2020年4月2日

摘要：思想：当前状态的价值和下一步的价值和当前的奖励有关。价值函数分解为当前奖励和下一步价值函数两部分，类似于递归的思想例如在上面这个图中。vπ(s)是状态s的价值函数。π(a|s)是状态s下执行行为a的概率，Rsa是对应的即时奖励，是在状态S下执行了动作a之后转移到状态S′的概率。上面这个图就是实际阅读全文

posted @ 2020-04-02 11:15 地球上最后一个直男阅读(1075) 评论(0) 推荐(0) 编辑

马尔科夫决策过程

摘要：马尔科夫决策要求 1.能够检测到理想状态 2.可以多次尝试采取不同动作 3.系统的下一个状态只与当前状态有关，而与之前的状态无关。在决策过程中还和当前采取的动作有关。马尔科夫决策过程与5个因素有关： S：表示状态集 A：表示一组动作 P：表示状态转移概率。Psa表示在当前状态S下，执行动作a,转移阅读全文

posted @ 2020-04-02 10:57 地球上最后一个直男阅读(383) 评论(0) 推荐(0) 编辑

强化学习基本概念

摘要：智能体（agent）例如alpha-go中的棋盘，用于产生动作的主体就是智能体。状态（state） l例如当前棋盘中的局势就是状态，表示的是主体执行动作之前需要考虑的外部环境动作（action）例如下围棋中的落子，表示智能体在某个状态下采取的一个行为奖励（reward）例如当某一步有利于阅读全文

posted @ 2020-04-02 00:05 地球上最后一个直男阅读(184) 评论(0) 推荐(0) 编辑

地球上最后一个直男

公告