摘要: K臂赌博机问题描述: 重复在K个动作中选择,每次做出选择后都会得到一定数值的收益,收益由选择的动作决定的平稳概率分布产生,目标是在某一段时间内最大化总收益的期望。 问题解决思路: 选择收益(价值)最大的动作。知道价值则直接选择,不知道价值就通过多次试验估计价值。 动作值估计 大数定律(多次尝试这个动 阅读全文
posted @ 2021-05-19 10:46 芋圆院长 阅读(35) 评论(0) 推荐(0) 编辑