会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
TzySec
博客园
首页
新随笔
联系
管理
订阅
2022年3月15日
强化学习基础知识
摘要: 之前杂七杂八的看了很多关于强化学习的知识,脑子里比较混乱,经过这次的梳理感觉清晰条理了很多。 一、Terminologies Agent、State、Action、Environment、Reward Policy:Π( a | s ),策略函数,以状态 s 作为输入,输出所有动作 a 的概率。 S
阅读全文
posted @ 2022-03-15 21:47 Sunshine_y
阅读(134)
评论(0)
推荐(1)
编辑
公告