摘要:
引言: 强化学习(Reinforcement Learning, RL)是一种有效的解决序列决策问题的方法。近年来,结合了深度神经网络之后,深度强化学习(Deep Reinforcement Learning, DRL)被广泛地应用于各种领域。但是,当前的DRL算法使用神经网络学习到的策略,通常是一 阅读全文
摘要:
题目描述:区间覆盖问题,给定区间和要求的长度T,问是否存在区间能够覆盖区间[0,T]。能则返回所需片段的最小数目,否则返回 -1 。 示例 1: 输入:clips = [[0,2],[4,6],[8,10],[1,9],[1,5],[5,9]], T = 10 输出:3 示例 2: 输入:clips 阅读全文
摘要:
题目:请判断一个链表是否为回文链表。 示例 1: 输入: 1->2 输出: false 示例 2: 输入: 1->2->2->1 输出: true 使用O(n) 时间复杂度和 O(1) 空间复杂度。 使用快慢指针找到中间位置(偶数的话这里取前一个) 反转链表 遍历原始链表和反转链表,比较是否相等。长 阅读全文
摘要:
上文中提到,在知道强化学习转移概率和reward函数的情况下,我们可以使用dp的方法来求解强化学习问题。那么,在我们不知道转移概率和reward函数的时候,我们需要怎么来求解呢。 0x1 蒙特卡洛学习(Monte Carlo Learning, MC Learning) 蒙特卡洛一词主要指代使用随机 阅读全文
摘要:
0x1 强化学习基本分类 在上一篇文章中,我们介绍了强化学习的基本概念以及基本的模型定义。现在我们来对强化学习做一个基本的分类,强化学习方法,根据是否直接优化policy,可以分为value-based 方法和policy-based方法,value-based方法就是去计算状态的价值,根据价值不断 阅读全文
摘要:
0x1 强化学习简介 强化学习(Reinforcement Learning, RL)是机器学习(Machine Learning, ML)的三大分支之一。在一个强化学习问题中, 有一个决策者, 我们通常称之为智能体(agent), 它所交互的区域叫做环境(environment, env), 它所 阅读全文
摘要:
windows10 版本号:1909 操作系统版本:18363.778 0x1 确定 nvidia 显卡驱动的版本是否满足安装条件 打开 nvidia 控制面板,看到我的显卡为 GTX1060 驱动版本为 445.75 进入nvidia官网 ,查看 CUDA 版本与 nvidia 显卡驱动版本之间的 阅读全文
摘要:
A - Boring Apartments 直接找规律。\(ans = 10 * (dig-1) + \frac{len(len+1)}{2}\) #include <bits/stdc++.h> using namespace std; int main() { int t; cin >> t; 阅读全文
摘要:
栅栏密码 (The rail fence cipher) write by asakuras 简单来说,栅栏密码就是把一个明文(去掉空格)分成n组,每组m个,然后一定的排序方法(看下面例子)来将这些字符重新组合。通过m的大小称其为m栏栅栏密码,比较常见的m取2,即2栏栅栏密码。 举例 ① n = 7 阅读全文
摘要:
The Tools CTF Usually Needed list by asakuras && p4ssw0rd RE ida ollydbg gdb gdb-peda peid dnspy ANDROID adb apktool jeb jd-gui ida xposed frida CRYPT 阅读全文