2019年8月2日

马尔科夫决策过程(MDP)

摘要: 1.马尔科夫性 系统的下一个状态仅与当前状态有关,与以前的状态无关。 定义:状态st是马尔科夫的,当且仅当P[st+1|st]=P[st+1|s1……st],当前状态st其实是蕴含了所有相关的历史信息,一旦当前信息已知,历史信息会被抛弃。 2.马尔科夫过程 是一个二元组,包括状态机和状态转移概率。从 阅读全文

posted @ 2019-08-02 15:10 一抹阳光~绚烂 阅读(1277) 评论(0) 推荐(1) 编辑

导航