摘要: 题目:请判断一个链表是否为回文链表。 示例 1: 输入: 1->2 输出: false 示例 2: 输入: 1->2->2->1 输出: true 使用O(n) 时间复杂度和 O(1) 空间复杂度。 使用快慢指针找到中间位置(偶数的话这里取前一个) 反转链表 遍历原始链表和反转链表,比较是否相等。长 阅读全文
posted @ 2020-10-23 20:29 asakuras 阅读(67) 评论(0) 推荐(0) 编辑
摘要: 上文中提到,在知道强化学习转移概率和reward函数的情况下,我们可以使用dp的方法来求解强化学习问题。那么,在我们不知道转移概率和reward函数的时候,我们需要怎么来求解呢。 0x1 蒙特卡洛学习(Monte Carlo Learning, MC Learning) 蒙特卡洛一词主要指代使用随机 阅读全文
posted @ 2020-10-23 02:09 asakuras 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 0x1 强化学习基本分类 在上一篇文章中,我们介绍了强化学习的基本概念以及基本的模型定义。现在我们来对强化学习做一个基本的分类,强化学习方法,根据是否直接优化policy,可以分为value-based 方法和policy-based方法,value-based方法就是去计算状态的价值,根据价值不断 阅读全文
posted @ 2020-10-23 02:07 asakuras 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 0x1 强化学习简介 强化学习(Reinforcement Learning, RL)是机器学习(Machine Learning, ML)的三大分支之一。在一个强化学习问题中, 有一个决策者, 我们通常称之为智能体(agent), 它所交互的区域叫做环境(environment, env), 它所 阅读全文
posted @ 2020-10-23 02:06 asakuras 阅读(1018) 评论(0) 推荐(0) 编辑
摘要: windows10 版本号:1909 操作系统版本:18363.778 0x1 确定 nvidia 显卡驱动的版本是否满足安装条件 打开 nvidia 控制面板,看到我的显卡为 GTX1060 驱动版本为 445.75 进入nvidia官网 ,查看 CUDA 版本与 nvidia 显卡驱动版本之间的 阅读全文
posted @ 2020-10-23 02:05 asakuras 阅读(2123) 评论(1) 推荐(0) 编辑