摘要: 引言: 强化学习(Reinforcement Learning, RL)是一种有效的解决序列决策问题的方法。近年来,结合了深度神经网络之后,深度强化学习(Deep Reinforcement Learning, DRL)被广泛地应用于各种领域。但是,当前的DRL算法使用神经网络学习到的策略,通常是一 阅读全文
posted @ 2020-10-30 14:35 asakuras 阅读(692) 评论(0) 推荐(0) 编辑
摘要: 题目描述:区间覆盖问题,给定区间和要求的长度T,问是否存在区间能够覆盖区间[0,T]。能则返回所需片段的最小数目,否则返回 -1 。 示例 1: 输入:clips = [[0,2],[4,6],[8,10],[1,9],[1,5],[5,9]], T = 10 输出:3 示例 2: 输入:clips 阅读全文
posted @ 2020-10-24 18:34 asakuras 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 题目:请判断一个链表是否为回文链表。 示例 1: 输入: 1->2 输出: false 示例 2: 输入: 1->2->2->1 输出: true 使用O(n) 时间复杂度和 O(1) 空间复杂度。 使用快慢指针找到中间位置(偶数的话这里取前一个) 反转链表 遍历原始链表和反转链表,比较是否相等。长 阅读全文
posted @ 2020-10-23 20:29 asakuras 阅读(67) 评论(0) 推荐(0) 编辑
摘要: 上文中提到,在知道强化学习转移概率和reward函数的情况下,我们可以使用dp的方法来求解强化学习问题。那么,在我们不知道转移概率和reward函数的时候,我们需要怎么来求解呢。 0x1 蒙特卡洛学习(Monte Carlo Learning, MC Learning) 蒙特卡洛一词主要指代使用随机 阅读全文
posted @ 2020-10-23 02:09 asakuras 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 0x1 强化学习基本分类 在上一篇文章中,我们介绍了强化学习的基本概念以及基本的模型定义。现在我们来对强化学习做一个基本的分类,强化学习方法,根据是否直接优化policy,可以分为value-based 方法和policy-based方法,value-based方法就是去计算状态的价值,根据价值不断 阅读全文
posted @ 2020-10-23 02:07 asakuras 阅读(459) 评论(0) 推荐(0) 编辑
摘要: 0x1 强化学习简介 强化学习(Reinforcement Learning, RL)是机器学习(Machine Learning, ML)的三大分支之一。在一个强化学习问题中, 有一个决策者, 我们通常称之为智能体(agent), 它所交互的区域叫做环境(environment, env), 它所 阅读全文
posted @ 2020-10-23 02:06 asakuras 阅读(1062) 评论(0) 推荐(0) 编辑
摘要: windows10 版本号:1909 操作系统版本:18363.778 0x1 确定 nvidia 显卡驱动的版本是否满足安装条件 打开 nvidia 控制面板,看到我的显卡为 GTX1060 驱动版本为 445.75 进入nvidia官网 ,查看 CUDA 版本与 nvidia 显卡驱动版本之间的 阅读全文
posted @ 2020-10-23 02:05 asakuras 阅读(2139) 评论(1) 推荐(0) 编辑
摘要: A - Boring Apartments 直接找规律。\(ans = 10 * (dig-1) + \frac{len(len+1)}{2}\) #include <bits/stdc++.h> using namespace std; int main() { int t; cin >> t; 阅读全文
posted @ 2020-10-21 15:24 asakuras 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 栅栏密码 (The rail fence cipher) write by asakuras 简单来说,栅栏密码就是把一个明文(去掉空格)分成n组,每组m个,然后一定的排序方法(看下面例子)来将这些字符重新组合。通过m的大小称其为m栏栅栏密码,比较常见的m取2,即2栏栅栏密码。 举例 ① n = 7 阅读全文
posted @ 2019-04-11 13:18 asakuras 阅读(11792) 评论(0) 推荐(0) 编辑
摘要: The Tools CTF Usually Needed list by asakuras && p4ssw0rd RE ida ollydbg gdb gdb-peda peid dnspy ANDROID adb apktool jeb jd-gui ida xposed frida CRYPT 阅读全文
posted @ 2019-04-09 21:35 asakuras 阅读(156) 评论(0) 推荐(0) 编辑