asakuras - 博客园

2020年10月30日

摘要：引言：强化学习(Reinforcement Learning, RL)是一种有效的解决序列决策问题的方法。近年来，结合了深度神经网络之后，深度强化学习(Deep Reinforcement Learning, DRL)被广泛地应用于各种领域。但是，当前的DRL算法使用神经网络学习到的策略，通常是一阅读全文

posted @ 2020-10-30 14:35 asakuras 阅读(692) 评论(0) 推荐(0) 编辑

2020年10月24日

LeetCode 1024. 视频拼接 (每日一题）

摘要：题目描述：区间覆盖问题，给定区间和要求的长度T，问是否存在区间能够覆盖区间[0,T]。能则返回所需片段的最小数目，否则返回 -1 。示例 1：输入：clips = [[0,2],[4,6],[8,10],[1,9],[1,5],[5,9]], T = 10 输出：3 示例 2：输入：clips 阅读全文

posted @ 2020-10-24 18:34 asakuras 阅读(133) 评论(0) 推荐(0) 编辑

2020年10月23日

LeetCode 234. 回文链表（每日一题）

摘要：题目：请判断一个链表是否为回文链表。示例 1: 输入: 1->2 输出: false 示例 2: 输入: 1->2->2->1 输出: true 使用O(n) 时间复杂度和 O(1) 空间复杂度。使用快慢指针找到中间位置（偶数的话这里取前一个）反转链表遍历原始链表和反转链表，比较是否相等。长阅读全文

posted @ 2020-10-23 20:29 asakuras 阅读(67) 评论(0) 推荐(0) 编辑

强化学习基础系列(三)：Q-learning, Sarsa

摘要：上文中提到，在知道强化学习转移概率和reward函数的情况下，我们可以使用dp的方法来求解强化学习问题。那么，在我们不知道转移概率和reward函数的时候，我们需要怎么来求解呢。 0x1 蒙特卡洛学习(Monte Carlo Learning, MC Learning) 蒙特卡洛一词主要指代使用随机阅读全文

posted @ 2020-10-23 02:09 asakuras 阅读(237) 评论(0) 推荐(0) 编辑

强化学习基础系列(二)：Policy Iteration， Value Iteration

摘要： 0x1 强化学习基本分类在上一篇文章中，我们介绍了强化学习的基本概念以及基本的模型定义。现在我们来对强化学习做一个基本的分类，强化学习方法，根据是否直接优化policy，可以分为value-based 方法和policy-based方法，value-based方法就是去计算状态的价值，根据价值不断阅读全文

posted @ 2020-10-23 02:07 asakuras 阅读(459) 评论(0) 推荐(0) 编辑

强化学习基础系列(一)：强化学习基本定义

摘要： 0x1 强化学习简介强化学习(Reinforcement Learning, RL)是机器学习(Machine Learning, ML)的三大分支之一。在一个强化学习问题中, 有一个决策者, 我们通常称之为智能体(agent), 它所交互的区域叫做环境(environment, env), 它所阅读全文

posted @ 2020-10-23 02:06 asakuras 阅读(1062) 评论(0) 推荐(0) 编辑

windows10 安装 cuda10.1 + pytorch1.4

摘要： windows10 版本号：1909 操作系统版本：18363.778 0x1 确定 nvidia 显卡驱动的版本是否满足安装条件打开 nvidia 控制面板，看到我的显卡为 GTX1060 驱动版本为 445.75 进入nvidia官网，查看 CUDA 版本与 nvidia 显卡驱动版本之间的阅读全文

posted @ 2020-10-23 02:05 asakuras 阅读(2139) 评论(1) 推荐(0) 编辑

2020年10月21日

Codeforces Round #677 (Div. 3) Editorial

摘要： A - Boring Apartments 直接找规律。\(ans = 10 * (dig-1) + \frac{len(len+1)}{2}\) #include <bits/stdc++.h> using namespace std; int main() { int t; cin >> t; 阅读全文

posted @ 2020-10-21 15:24 asakuras 阅读(135) 评论(0) 推荐(0) 编辑

2019年4月11日

栅栏密码

摘要：栅栏密码 (The rail fence cipher) write by asakuras 简单来说，栅栏密码就是把一个明文（去掉空格）分成n组，每组m个，然后一定的排序方法（看下面例子）来将这些字符重新组合。通过m的大小称其为m栏栅栏密码，比较常见的m取2，即2栏栅栏密码。举例 ① n = 7 阅读全文

posted @ 2019-04-11 13:18 asakuras 阅读(11792) 评论(0) 推荐(0) 编辑

2019年4月9日

The Tools CTF Usually Needed

摘要： The Tools CTF Usually Needed list by asakuras && p4ssw0rd RE ida ollydbg gdb gdb-peda peid dnspy ANDROID adb apktool jeb jd-gui ida xposed frida CRYPT 阅读全文

posted @ 2019-04-09 21:35 asakuras 阅读(156) 评论(0) 推荐(0) 编辑

公告