会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
芋圆院长
博客园
首页
新随笔
联系
订阅
管理
2021年5月19日
强化学习之多臂赌博机
摘要: K臂赌博机问题描述: 重复在K个动作中选择,每次做出选择后都会得到一定数值的收益,收益由选择的动作决定的平稳概率分布产生,目标是在某一段时间内最大化总收益的期望。 问题解决思路: 选择收益(价值)最大的动作。知道价值则直接选择,不知道价值就通过多次试验估计价值。 动作值估计 大数定律(多次尝试这个动
阅读全文
posted @ 2021-05-19 10:46 芋圆院长
阅读(35)
评论(0)
推荐(0)
编辑
公告