2019 年 1月 15 日随笔档案 - sbj123456789

2019年1月15日

摘要：几个关键要素 State：状态 Action：行动，每个State下可以采取的行动 Reward(State,Action)：实际的奖励，每个State下采取不同的Action，会得到不同的Reward。因此其可以是一张二维的表，也可以根据实际情况来判定。 Q(State,Action)：Q-val 阅读全文

posted @ 2019-01-15 18:36 sbj123456789 阅读(445) 评论(0) 推荐(0) 编辑

sbj123456789

公告