组会记录——强化学习
※ 对数似然函数与一般似然函数的区别?
1、方便求导;
2、减少计算量;
3、不影响单调性。
※ 离散变量如何求导?指示函数如何求导?
※ 强化学习需要状态都是离散量吗?
状态空间S和动作空间A都必须使有限的?现在强化学习已经有处理连续变量的technique?
首先是由于功率控制是MDP问题,所以可以用强化学习。
※ Meta-learning
Support set 和 Query set
※ 对数似然函数与一般似然函数的区别?
1、方便求导;
2、减少计算量;
3、不影响单调性。
※ 离散变量如何求导?指示函数如何求导?
※ 强化学习需要状态都是离散量吗?
状态空间S和动作空间A都必须使有限的?现在强化学习已经有处理连续变量的technique?
首先是由于功率控制是MDP问题,所以可以用强化学习。
※ Meta-learning
Support set 和 Query set