2020 年 10月 23 日随笔档案 - asakuras

2020年10月23日

摘要：题目：请判断一个链表是否为回文链表。示例 1: 输入: 1->2 输出: false 示例 2: 输入: 1->2->2->1 输出: true 使用O(n) 时间复杂度和 O(1) 空间复杂度。使用快慢指针找到中间位置（偶数的话这里取前一个）反转链表遍历原始链表和反转链表，比较是否相等。长阅读全文

posted @ 2020-10-23 20:29 asakuras 阅读(67) 评论(0) 推荐(0) 编辑

强化学习基础系列(三)：Q-learning, Sarsa

摘要：上文中提到，在知道强化学习转移概率和reward函数的情况下，我们可以使用dp的方法来求解强化学习问题。那么，在我们不知道转移概率和reward函数的时候，我们需要怎么来求解呢。 0x1 蒙特卡洛学习(Monte Carlo Learning, MC Learning) 蒙特卡洛一词主要指代使用随机阅读全文

posted @ 2020-10-23 02:09 asakuras 阅读(234) 评论(0) 推荐(0) 编辑

强化学习基础系列(二)：Policy Iteration， Value Iteration

摘要： 0x1 强化学习基本分类在上一篇文章中，我们介绍了强化学习的基本概念以及基本的模型定义。现在我们来对强化学习做一个基本的分类，强化学习方法，根据是否直接优化policy，可以分为value-based 方法和policy-based方法，value-based方法就是去计算状态的价值，根据价值不断阅读全文

posted @ 2020-10-23 02:07 asakuras 阅读(417) 评论(0) 推荐(0) 编辑

强化学习基础系列(一)：强化学习基本定义

摘要： 0x1 强化学习简介强化学习(Reinforcement Learning, RL)是机器学习(Machine Learning, ML)的三大分支之一。在一个强化学习问题中, 有一个决策者, 我们通常称之为智能体(agent), 它所交互的区域叫做环境(environment, env), 它所阅读全文

posted @ 2020-10-23 02:06 asakuras 阅读(1018) 评论(0) 推荐(0) 编辑

windows10 安装 cuda10.1 + pytorch1.4

摘要： windows10 版本号：1909 操作系统版本：18363.778 0x1 确定 nvidia 显卡驱动的版本是否满足安装条件打开 nvidia 控制面板，看到我的显卡为 GTX1060 驱动版本为 445.75 进入nvidia官网，查看 CUDA 版本与 nvidia 显卡驱动版本之间的阅读全文

posted @ 2020-10-23 02:05 asakuras 阅读(2123) 评论(1) 推荐(0) 编辑

公告