强化学习建模之前必须思考的问题

强化学习理解

强化学习是智能体与环境的交互(探索和试错),通过交互信息来感知环境,从而调整自己的行为,选择出最好的结果。
强化学习更加侧重于从互动中进行目标导向的学习。
【将情境映射到行动,以便最大化数值奖赏信号。通俗理解为对人学习过程的简单模拟,相当于人做了多次的探索,把最后的劳动成果以状态值函数、动作状态对值函数等方式表达出来。利用探索结果选择合适的动作来完成自己的任务。】

使用收益信号来形式化目标是强化学习最显著的目标之一。收益信号只能用来传达什么是你想要的目标,而不是如何实现目标

解决问题前必须明确的内容

  1. 要研究的是什么问题,是否涉及与环境的交互?
  2. 这个问题是否适合使用强化学习来解决?(本质上属于一种优化问题,序列决策)
  3. 智能体有哪些状态,每个状态对应有哪些动作,与环境的交互规律是否可显式表达?
  4. 与环境的交互是为了什么?要达成什么目标?对每个状态的奖励如何设置?

分别对应 环境状态、状态下对应的动作、动作与状态转移的关系、对目标的设定及reward衡量。

强化学习的要素包括策略、奖赏信号、值函数、环境模型。

在目前你考虑的问题中是否对一些情况作了理想化处理?如果不做理想化处理应该选择什么方式来解决这个问题?

【个人理解:强化学习很像自己指定规则来探索环境,根据规则尝试很多次,把最后收敛的结果输出来指导决策】

思考

最近又对这个问题产生了新的想法,这个问题就是强化学习解决的到底是什么问题?我现在想做一件事情,你告诉我什么是好,什么是不好,然后根据我的试错保证奖励最大化。
这个探索是我自己进行的,你如果告诉我什么样的好,并且指导我往这边走就错了对吗?

强化学习的本质是通过与环境交互获得反馈信号,从而让智能体逐步调整其行为策略,最终达到最优决策的目的。
在强化学习中,最好的方法是让智能体在真实的环境中与环境交互,从而获得最真实的训练数据。因此,在训练过程中,应该尽可能避免对环境的干涉和修改,以保证训练数据的真实性和有效性。

如果你在环境中进行了动作矫正,那么这些操作会干扰到智能体与环境的交互,可能会导致智能体的行为和训练数据与真实情况不符,从而影响模型的学习效果和泛化能力。因此,最好的方法是在训练过程能中尽量避免对环境进行干涉,以获得最真实的训练数据。这就意味着你可以在某些时候通过引导帮助智能体获得一些好数据,至少它有过好东西就会去学习了。

当然,在一些特殊情况下,例如安全性问题,也可以在环境中进行一些必要的限制和矫正。但需要注意的是,在这种情况下,需要仔细考虑限制和矫正的合理性和充分性,避免引入不必要的偏见和影响,从而保证模型的泛化能力和实际应用效果。

如果我告诉你一些先验信息就会影响你最终学习的效果吗?结论是可能会,如果我能得到的好东西不多,先验信息就很重要,但如果我靠自己可以得到这些东西,那么它似乎并不重要。

强化学习的奖励设置,网络设置 算法设置,全都是坑......

posted @ 2021-05-18 11:19  芋圆院长  阅读(174)  评论(0编辑  收藏  举报