强化学习建模之前必须思考的问题

强化学习理解

强化学习是智能体与环境的交互（探索和试错），通过交互信息来感知环境，从而调整自己的行为，选择出最好的结果。
强化学习更加侧重于从互动中进行目标导向的学习。
【将情境映射到行动，以便最大化数值奖赏信号。通俗理解为对人学习过程的简单模拟，相当于人做了多次的探索，把最后的劳动成果以状态值函数、动作状态对值函数等方式表达出来。利用探索结果选择合适的动作来完成自己的任务。】

使用收益信号来形式化目标是强化学习最显著的目标之一。收益信号只能用来传达什么是你想要的目标，而不是如何实现目标

解决问题前必须明确的内容

要研究的是什么问题，是否涉及与环境的交互？
这个问题是否适合使用强化学习来解决？（本质上属于一种优化问题，序列决策）
智能体有哪些状态，每个状态对应有哪些动作，与环境的交互规律是否可显式表达？
与环境的交互是为了什么？要达成什么目标？对每个状态的奖励如何设置？

分别对应环境状态、状态下对应的动作、动作与状态转移的关系、对目标的设定及reward衡量。

强化学习的要素包括策略、奖赏信号、值函数、环境模型。

在目前你考虑的问题中是否对一些情况作了理想化处理？如果不做理想化处理应该选择什么方式来解决这个问题？

【个人理解：强化学习很像自己指定规则来探索环境，根据规则尝试很多次，把最后收敛的结果输出来指导决策】

思考

最近又对这个问题产生了新的想法，这个问题就是强化学习解决的到底是什么问题？我现在想做一件事情，你告诉我什么是好，什么是不好，然后根据我的试错保证奖励最大化。
这个探索是我自己进行的，你如果告诉我什么样的好，并且指导我往这边走就错了对吗？

强化学习的本质是通过与环境交互获得反馈信号，从而让智能体逐步调整其行为策略，最终达到最优决策的目的。
在强化学习中，最好的方法是让智能体在真实的环境中与环境交互，从而获得最真实的训练数据。因此，在训练过程中，应该尽可能避免对环境的干涉和修改，以保证训练数据的真实性和有效性。

如果你在环境中进行了动作矫正，那么这些操作会干扰到智能体与环境的交互，可能会导致智能体的行为和训练数据与真实情况不符，从而影响模型的学习效果和泛化能力。因此，最好的方法是在训练过程能中尽量避免对环境进行干涉，以获得最真实的训练数据。这就意味着你可以在某些时候通过引导帮助智能体获得一些好数据，至少它有过好东西就会去学习了。

当然，在一些特殊情况下，例如安全性问题，也可以在环境中进行一些必要的限制和矫正。但需要注意的是，在这种情况下，需要仔细考虑限制和矫正的合理性和充分性，避免引入不必要的偏见和影响，从而保证模型的泛化能力和实际应用效果。

如果我告诉你一些先验信息就会影响你最终学习的效果吗？结论是可能会，如果我能得到的好东西不多，先验信息就很重要，但如果我靠自己可以得到这些东西，那么它似乎并不重要。

强化学习的奖励设置，网络设置算法设置，全都是坑......

posted @ 2021-05-18 11:19 芋圆院长阅读(174) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

芋圆院长

强化学习建模之前必须思考的问题

强化学习理解

解决问题前必须明确的内容

思考

公告