摘要: 引入 给一张动物的图片,分辨是什么动物。这个问题可以用 CNN 解决(HW3)。核心是通过有标注(label)的图片进行学习。 而在下围棋时,如何落子是一个难以标注的问题,但是机器可以学到什么是好的,什么是不好的。这就是强化学习的适用场景。 结构 总的目标是想找一个 Actor(或称 policy) 阅读全文
posted @ 2024-02-22 14:44 SkyRainWind 阅读(81) 评论(0) 推荐(0) 编辑