今夜无风 - 博客园

2022年12月

摘要：问题：给你一个单链表的头节点 head ，请你判断该链表是否为回文链表。如果是，返回 true ；否则，返回 false 。思考：对称结构要想到stack 方案一：双指针法将节点值赋值到数组中，使用双指针依次比较元素 # Definition for singly-linked list. # 阅读全文

posted @ 2022-12-03 20:59 今夜无风阅读(25) 评论(0) 推荐(0) 编辑

2022年11月

实现Trie树-Python

摘要： # 实现Trie树: 字典套字典 class Trie(): def __init__(self): self.child = {} def insert(self, word): current_node = self.child for e in word: if e not in curren 阅读全文

posted @ 2022-11-30 16:44 今夜无风阅读(38) 评论(0) 推荐(0) 编辑

强化学习代码实战-09 SAC 算法

摘要：离线学习算法：A3C, PPO, TRPO 在线学习算法：DDPG，训练不稳定，容易陷入局部最优 SAC: 离线策略，随机策略，最大化累积奖励的同时最大化策略的熵（更好地探索环境，熵值越高，策略越随机，目标的奖励越大） Soft Actor-Critic 算法公式： α越大，策略的随机性越强算法流阅读全文

posted @ 2022-11-20 17:08 今夜无风阅读(1831) 评论(0) 推荐(0) 编辑

强化学习代码实战-08 DDPG 算法

摘要： PPO算法是离线学习法，样本效率利用率低，且对连续动作空间情况处理能力弱，无法精细控制 DDPG-深度确定性策略梯度算法，离线学习、处理连续动作空间 DDPG构造一个确定性策略，采用梯度上升法最大化Q值（动作-状态价值价值网络）在行为策略上引入一个随机噪声N，加大对未知的探索用到4个神经网络，使阅读全文

posted @ 2022-11-19 19:52 今夜无风阅读(673) 评论(0) 推荐(0) 编辑

强化学习代码实战-08 PPO算法（倒立摆）

摘要：连续性问题处理 """ @Date ：2022/11/2 @Fun: 倒立摆控制 """ import random import gym import torch import numpy as np from matplotlib import pyplot as plt from IPytho 阅读全文

posted @ 2022-11-18 21:40 今夜无风阅读(980) 评论(0) 推荐(0) 编辑

强化学习代码实战-08 PPO算法

摘要：关键点： PPO基于TRPO算法，算法实现更加简单，PPO能学习的相对较好，应用也更加广泛广义优势近似（GAE）求解优势函数值先L函数求近似在最大化价值 PPO惩罚与PPO截断，后者效果更好 TROP目标函数： PPO-截断目标函数： """ @Date ：2022/11/2 @Author 阅读全文

posted @ 2022-11-18 16:36 今夜无风阅读(1061) 评论(0) 推荐(0) 编辑

强化学习代码实战-07 Actor-Critic 算法

摘要： Actor（策略网络）和 Critic（价值网络） Actor 要做的是与环境交互，并在 Critic 价值函数的指导下用策略梯度学习一个更好的策略。 Critic 要做的是通过 Actor 与环境交互收集的数据学习一个价值函数，这个价值函数会用于判断在当前状态什么动作是好的，什么动作不是好的，进而阅读全文

posted @ 2022-11-15 23:44 今夜无风阅读(788) 评论(0) 推荐(0) 编辑

强化学习代码实战-07 ERINFORCEMENT 算法

摘要：基于策略的学习方法：直接显示地学习一个目标策略策略梯度基于策略的方法基础基于策略的学习方法：寻找最优策略并最大化这个策略在环境的期望回报让策略更多地采样到带来较高Q值的动作 import random import gym import torch import numpy as np fro 阅读全文

posted @ 2022-11-15 18:43 今夜无风阅读(47) 评论(0) 推荐(0) 编辑

强化学习代码实战-06 Dueling DQN 算法

摘要：引入优势函数A，优势函数A = 状态动作价值函数Q - 状态价值函数V。在同一状态下，所有动作的优势值为零。因为，所有的动作的状态动作价值的期望就是状态价值。实现代码： import random import gym import torch import numpy as np from m 阅读全文

posted @ 2022-11-14 18:06 今夜无风阅读(118) 评论(0) 推荐(0) 编辑

强化学习代码实战-06 Double DQN算法

摘要：解决DQN的高估问题。即利用一套神经网络的输出选取价值最大的动作，但在使用该动作的价值时，用另一套神经网络计算该动作的价值。 import random import gym import torch import numpy as np from matplotlib import pyplot 阅读全文

posted @ 2022-11-13 19:33 今夜无风阅读(155) 评论(0) 推荐(0) 编辑

公告

昵称：今夜无风
园龄： 11年7个月
粉丝： 47
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论