摘要: 要求: 1.能够检测到理想的状态 2.可以多次尝试 3.系统的下个状态只与当前状态信息有关,而与更早之前的状态无关,在决策过程中还和当前采取的动作有关。 马尔科夫决策过程由五个元素组成: S:表示状态集(states) A:表示一组动作(actions) P:表示状态转移概率Psa表示在当前s∈S, 阅读全文
posted @ 2020-09-27 16:17 赵代码 阅读(435) 评论(0) 推荐(0) 编辑