摘要: 几个关键要素 State:状态 Action:行动,每个State下可以采取的行动 Reward(State,Action):实际的奖励,每个State下采取不同的Action,会得到不同的Reward。因此其可以是一张二维的表,也可以根据实际情况来判定。 Q(State,Action):Q-val 阅读全文
posted @ 2019-01-15 18:36 sbj123456789 阅读(425) 评论(0) 推荐(0) 编辑