2019年7月26日

Python凸优化工具包——cvxopt

摘要: 二次规划 二次规划标准型 例如 其中 \[\begin{array}{*{20}{l}}{P = \left[ {\begin{array}{*{20}{c}}{4,}&1\\{1,}&2\end{array}} \right]}&{q = \left[ {\begin{array}{*{20}{c 阅读全文

posted @ 2019-07-26 10:17 yijun0730 阅读(5117) 评论(0) 推荐(0) 编辑

2019年6月3日

局部搜索

摘要: 完备搜索 考虑所有的可能解 能够证明最优性 非完备搜索 只考虑某些可行解 无法证明最优性 相比完备搜索方法更快,可以处理更大的问题 贪心局部搜索 生成初始解 从领域中随机改变到达另一个更优的解 直到循环终止 最速下降的局部搜索 从领域中选择改变的路线时,评估领域中所有的相邻点,选择最快通往好的解的路 阅读全文

posted @ 2019-06-03 20:12 yijun0730 阅读(372) 评论(0) 推荐(0) 编辑

2019年5月31日

混合整数线性规划——切割平面

摘要: 我们可以使用Gomory切割来完全求解一个整数线性规划问题。思路是 1. 求解线性松弛 2. 根据这个线性松弛的单纯性表产生并添加Gomort切割,切割约束条件空间, 直到线性松弛的最优解为整。 针对混合整数线性规划问题, \[\begin{array}{*{20}{l}}{\max 3x + y 阅读全文

posted @ 2019-05-31 11:27 yijun0730 阅读(1008) 评论(0) 推荐(0) 编辑

混合整数线性规划——分支限界法

摘要: 当上一节讲到的线性规划问题中,要求某些变量是整数的时候,就变成了混合整数线性规划问题。 其实对于某些问题来说,线性规划问题的最优解刚好是整数,那么它对应的混合整数线性规划问题的解就刚好是这个最优解了。因此分支限界法的思路是, 1. 将原混合整数线性规划问题改进为行的松弛问题,不断地用单纯形法求解 2 阅读全文

posted @ 2019-05-31 10:05 yijun0730 阅读(6515) 评论(0) 推荐(0) 编辑

线性规划——单纯形法

摘要: 对于包含1个优化目标,n个变量,m个线性约束条件的线性规划问题来说,首先这是一个凸优化问题,一定存在最优值,其次最优值的取值一定是在m个约束条件构建几何体的顶点上。那么怎么找到所有的顶点,并且找到其中对应最优值的那个顶点呢?单纯形法的思路为, 1. 找到一个顶点,也就是一个基可行解 2. 在这个基可 阅读全文

posted @ 2019-05-31 08:58 yijun0730 阅读(1993) 评论(0) 推荐(0) 编辑

2019年3月12日

10. 基于模拟的搜索与蒙特卡罗树搜索(MCTS)

摘要: 上一篇讲了集成基于模型与不基于模型的强化学习框架Dyna,这一篇介绍另一种集成基于模型与不基于模型的强化学习框架基于模拟的搜索(Simulation Based Search)。 基于模拟的意思是,我们不是与环境交互获得真实的数据,而是基于模型进行采样得到训练样本。搜索则是为了利用模拟得到的训练样本 阅读全文

posted @ 2019-03-12 15:50 yijun0730 阅读(353) 评论(0) 推荐(0) 编辑

9. 基于模型的强化学习与Dyna2

摘要: 在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。 基于价值的强化学习模型和基于策略的强化学习模型 阅读全文

posted @ 2019-03-12 11:15 yijun0730 阅读(1172) 评论(0) 推荐(0) 编辑

2019年3月11日

8. Actor-Critic、DDPG、A3C

摘要: 我们知道,学术中很多时候一般是先有了牛逼算法A,再有了牛逼算法B。但A,B算法一般都有缺点,于是有一天有人将两者整合,结合了两者优点,避免了两者缺点,皆大欢喜,喜大普奔。但对于AC算法来说其架构可以追溯到三、四十年前。 最早由Witten在1977年提出了类似AC算法的方法,然后Barto, Sut 阅读全文

posted @ 2019-03-11 20:13 yijun0730 阅读(2361) 评论(0) 推荐(0) 编辑

7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法

摘要: 前6篇我们都是估计动作值函数Q,从而可以根据估计的Q值选择相应的动作。但是这样的值函数(Value Based)估计方法有着一定的限制。第一,值函数估计方法最后得到的策略是固定策略,不能应对最优策略是随机策略的情况,随机策略指的是以一定的概率选择不同的动作,而不是只可能有一个最优动作。第二,值函数估 阅读全文

posted @ 2019-03-11 09:44 yijun0730 阅读(2012) 评论(0) 推荐(0) 编辑

2019年1月23日

6. Double DQN、Prioritized DQN、Dueling DQN

摘要: 本篇介绍三种DQN的变体,分别是从参数更新部分改进的Double DQN,从经验回放部分改进的Prioritized DQN,从神经网络结构部分改进的Dueling DQN。 Double DQN 上一篇提到的DQN是基于Q-learning,更新也是基于贪婪算法,$Q \leftarrow Q + 阅读全文

posted @ 2019-01-23 20:41 yijun0730 阅读(1315) 评论(0) 推荐(0) 编辑

导航