paulonetwo

机器学习工程师 - Udacity 机器学习毕业项目算式识别

摘要：算式识别（挑战项目） ...Previous weight data... ...Previous weight data... 100%|██████████████████████████████████████████████████████████████████████████| 8000 阅读全文

posted @ 2019-03-14 20:38 paulonetwo 阅读(719) 评论(0) 推荐(0) 编辑

机器学习工程师 - Udacity 强化学习 Part Eleven

摘要：十、行动者-评论者方法 1.行动者-评论者方法我们可以通过两大类别的方法解决强化学习问题。对于蒙特卡罗学习或 Q 学习等基于值的方法，我们会尝试表示每个状态或状态动作对的值，然后，根据任何状态我们可以选择具有最佳值的动作。如果你有数量有限的动作，这种方法很合适。另一方面，基于策略的方法会对从状态到动阅读全文

posted @ 2019-03-13 20:47 paulonetwo 阅读(263) 评论(0) 推荐(0) 编辑

机器学习工程师 - Udacity 强化学习 Part Ten

摘要：九、策略梯度1.为何要使用基于策略的方法原因有三个方面：简单性，随机性策略和连续动作空间。在 Q 学习等基于值的方法中我们发明了值函数这一概念作为查找最优策略的中间步骤，它有助于我们将问题重新描述为更易于理解和学习的形式。但是如果我们的最终目标是查找最优策略，真的需要该值函数吗？可以直接估算最优策略阅读全文

posted @ 2019-03-12 19:45 paulonetwo 阅读(304) 评论(0) 推荐(0) 编辑

机器学习工程师 - Udacity 强化学习 Part Nine

摘要：深度Q学习 TensorFlow实现如果你想了解如何在其他 Python 框架中编写实现，请参阅： (Keras) https://keon.io/deep-q-learning/ (PyTorch) http://pytorch.org/tutorials/intermediate/reinfo 阅读全文

posted @ 2019-03-11 20:47 paulonetwo 阅读(637) 评论(0) 推荐(0) 编辑

机器学习工程师 - Udacity 强化学习 Part Eight

摘要：八、深度Q-学习 1.神经网络作为值函数状态值函数将任何状态 s 映射到实数，表示根据当前策略 π 该状态的重要性。如果我们使用神经网络估算该函数，则输入需要以向量的形式提供进来。我们已经知道如何使用特征转换 x 执行这一步。现在输入可以经过神经网络。如果它旨在输出一个实数，即网络估算的值，那就与利阅读全文

posted @ 2019-02-28 20:22 paulonetwo 阅读(335) 评论(0) 推荐(0) 编辑

机器学习工程师 - Udacity 强化学习 Part Seven

摘要：七、连续空间中的强化学习 1.复习强化学习强化学习问题通常都会转化为马尔可夫决策流程，简称 MDP。一个 MDP 由一组状态 S 动作 A 概率 P 奖励 R 和折扣因子 γ 组成。P 表示不同转换和奖励的发生频率，通常建模为单个联合概率。任何时间步 t+1 的状态和奖励仅依赖于在上个时间步 t 的阅读全文

posted @ 2019-02-27 20:59 paulonetwo 阅读(369) 评论(0) 推荐(0) 编辑

机器学习工程师 - Udacity 强化学习 Part Six

摘要：项目：强化学习走迷宫我们将会应用 Q-learning 算法完成一个经典的 Markov 决策问题 -- 走迷宫！请查看项目详情 https://github.com/udacity/MLND_CN_P5_Reinforcement_Learning Section 0 问题描述与完成项目流程阅读全文

posted @ 2019-02-27 19:36 paulonetwo 阅读(1405) 评论(0) 推荐(0) 编辑

机器学习工程师 - Udacity 强化学习 Part Five

摘要：六、时间差分方法 1.给定一个策略，如何估算其值函数？在蒙特卡洛方法中，智能体以阶段形式与环境互动，一个阶段结束后，我们按顺序查看每个状态动作对，如果是首次经历，则计算相应的回报并使用它来更新动作值。我们经历了很多很多个阶段。需要注意的是，只要我们不在阶段之间更改策略，该算法就可以解决预测问题，只要阅读全文

posted @ 2019-02-21 20:54 paulonetwo 阅读(640) 评论(0) 推荐(0) 编辑

机器学习工程师 - Udacity 强化学习 Part Four

摘要：五、蒙特卡洛方法 1.状态值如果你想详细了解首次经历和所有经历 MC 方法之间的区别，建议你阅读此论文的第 3 部分。结果在第 3.6 部分进行了总结。作者指出：所有经历 MC 存在偏差，而首次经历 MC 不存在偏差（请参阅 Theorems 6 和 7）。一开始，所有经历 MC 具有更低的均阅读全文

posted @ 2019-02-14 15:55 paulonetwo 阅读(792) 评论(0) 推荐(0) 编辑

机器学习工程师 - Udacity 强化学习 Part Three

摘要：四、动态规划1.在动态规划设置中，智能体完全了解表示环境特性的马尔可夫决策流程 (MDP)。（这比强化学习设置简单多了，在强化学习设置中，智能体一开始不知道环境如何决定状态和奖励，必须完全通过互动学习如何选择动作。） 2.迭代方法求状态值函数迭代方法先对每个状态的值进行初始猜测。尤其是，我们先假设每阅读全文

posted @ 2019-02-13 19:09 paulonetwo 阅读(608) 评论(0) 推荐(0) 编辑