强化学习 Q-learning 及python实现

Q-learning是强化学习中一种经典的无监督学习方法,通过与环境交互来指导学习;

大部分强化学习都是基于马尔科夫决策(MDP)的。MDP是一个框架,而Q学习是应用了这种框架的一个具体的学习方法。

 

Q学习的四要素:(agent,状态 s,动作 a,奖励 r)

简而言之,agent从当前状态选择一个动作,转移至一个新的状态,这个过程会获得一个即时奖励 r,agent再据此更新动作值函数Q,并将Q值储存在Q表中。

这里关键的有一个即时奖励矩阵R,和一个存储动作值函数值的Q表;两个表都是二维,行表示状态,列表示动作;

 

Q学习中的Q值更新函数(其实基于MDP中的值函数):

 

α:学习速率; γ:折扣因子 ,表示对未来奖励的重视程度;

不过我个人而言,常用α=1的情况,因为α的值对于算法对比和优化的效果差别不大(在迭代次数足够多的情况下);

 

一下这个小例子用的是动态规划的方法迭代计算Q,因为模型已知;模型未知的情况常采用蒙特卡洛算法 & 时序差分算法(TD,常用)

简单的一个迷宫例子就是这个走迷宫了~从任意状态开始,走到房间5就算成功了~

  

 

python实现Q学习走迷宫:

复制代码
 1 # an example for maze using qlearning, two dimension
 2 import numpy as np
 3 
 4 # reward matrix R
 5 R = np.array([[-1, -1, -1, -1, 0, -1], [-1, -1, -1, 0, -1, 100],
 6      [-1, -1, -1, 0, -1, -1], [-1, 0, 0, -1, 0, -1],
 7      [0, -1, -1, 0, -1, 100], [-1, 0, -1, -1, 0, 100]])
 8 
 9 Q = np.zeros((6, 6), float)
10 gamma = 0.8    # discount factor
11 
12 episode = 0
13 while episode < 1000:
14      state = np.random.randint(0, 6)    # from a random start state
15      for action in range(6):
16           if R[state, action] > -1:
17                Q[state, action] = R[state, action] + gamma*max(Q[action])  # this time, action is the next state
18      episode = episode + 1
19 
20 print(Q)
复制代码

 

posted @   liubilan  阅读(1626)  评论(0编辑  收藏  举报
编辑推荐:
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?
历史上的今天:
2018-10-19 汉字编码
点击右上角即可分享
微信分享提示