08 2018 档案

摘要:强化学习:是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。(来源百度百科) 强化学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。 1.K-摇 阅读全文
posted @ 2018-08-30 17:08 萧凡客 阅读(409) 评论(0) 推荐(0) 编辑
摘要:分支定界法(branch and bound)是一种求解整数规划问题的最常用算法。这种方法不但可以求解纯整数规划,还可以求解混合整数规划问题。分支定界法是一种搜索与迭代的方法,选择不同的分支变量和子问题进行分支。 通常,把全部可行解空间反复地分割为越来越小的子集,称为分枝;并且对每个子集内的解集计算 阅读全文
posted @ 2018-08-18 21:56 萧凡客 阅读(20878) 评论(0) 推荐(2) 编辑

点击右上角即可分享
微信分享提示