2022 年 3月 15 日随笔档案 - Sunshine_y

2022年3月15日

摘要：之前杂七杂八的看了很多关于强化学习的知识，脑子里比较混乱，经过这次的梳理感觉清晰条理了很多。一、Terminologies Agent、State、Action、Environment、Reward Policy：Π( a | s )，策略函数，以状态 s 作为输入，输出所有动作 a 的概率。 S 阅读全文

posted @ 2022-03-15 21:47 Sunshine_y 阅读(134) 评论(0) 推荐(1) 编辑

TzySec

公告