10 2020 档案
摘要:Q-learning是强化学习中一种经典的无监督学习方法,通过与环境交互来指导学习; 大部分强化学习都是基于马尔科夫决策(MDP)的。MDP是一个框架,而Q学习是应用了这种框架的一个具体的学习方法。 Q学习的四要素:(agent,状态 s,动作 a,奖励 r) 简而言之,agent从当前状态选择一个
阅读全文
摘要:其他权重计算方法:https://zhuanlan.zhihu.com/p/112667852 熵权法是一种客观加权法,比主观的加权更具说服力。 熵,描述系统的混乱程度。 在我看来,可以这样理解它:系统混乱,说明了信息的不一致性,而信息又分为我们已知的,和我们未知的。即不需要学习的,和需要学习的。熵
阅读全文