Q-learning算法及其在囚徒困境问题中的实现
一、强化学习
- 强化学习是一种无教师学习。
理解:系统有学习器和环境两个模块,分时进行学习,在t=i时,向学习器输入xi,选择动作ai可以获得一个ri。此时系统所要选择的是当输入xi时使得ri
最大的动作ai。选择xi的行为便称为策略。 - Q-learning算法的优点:不需要对所处的动态环境建模,所以耗费时间少,能在Agent与环境交互时在线使用。
运行机制: - TFT算法:即针锋相对算法,其基本策略就是以对手上一步的行动为当前行动。
二、实验设计
理解:共四种状态,每种状态有两种可以选择的动作,所以共8种Q值。