上一页 1 2 3 4 5 6 ··· 64 下一页
摘要: 问题:给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。 思考:对称结构要想到stack 方案一:双指针法 将节点值赋值到数组中,使用双指针依次比较元素 # Definition for singly-linked list. # 阅读全文
posted @ 2022-12-03 20:59 今夜无风 阅读(23) 评论(0) 推荐(0) 编辑
摘要: # 实现Trie树: 字典套字典 class Trie(): def __init__(self): self.child = {} def insert(self, word): current_node = self.child for e in word: if e not in curren 阅读全文
posted @ 2022-11-30 16:44 今夜无风 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 离线学习算法:A3C, PPO, TRPO 在线学习算法:DDPG,训练不稳定,容易陷入局部最优 SAC: 离线策略,随机策略,最大化累积奖励的同时最大化策略的熵(更好地探索环境,熵值越高,策略越随机,目标的奖励越大) Soft Actor-Critic 算法公式: α越大,策略的随机性越强 算法流 阅读全文
posted @ 2022-11-20 17:08 今夜无风 阅读(1519) 评论(0) 推荐(0) 编辑
摘要: PPO算法是离线学习法,样本效率利用率低,且对连续动作空间情况处理能力弱,无法精细控制 DDPG-深度确定性策略梯度算法,离线学习、处理连续动作空间 DDPG构造一个确定性策略,采用梯度上升法最大化Q值(动作-状态价值价值网络) 在行为策略上引入一个随机噪声N,加大对未知的探索 用到4个神经网络,使 阅读全文
posted @ 2022-11-19 19:52 今夜无风 阅读(515) 评论(0) 推荐(0) 编辑
摘要: 连续性问题处理 """ @Date :2022/11/2 @Fun: 倒立摆控制 """ import random import gym import torch import numpy as np from matplotlib import pyplot as plt from IPytho 阅读全文
posted @ 2022-11-18 21:40 今夜无风 阅读(806) 评论(0) 推荐(0) 编辑
摘要: 关键点: PPO基于TRPO算法,算法实现更加简单,PPO能学习的相对较好,应用也更加广泛 广义优势近似(GAE)求解优势函数值 先L函数求近似 在最大化价值 PPO惩罚与PPO截断,后者效果更好 TROP目标函数: PPO-截断目标函数: """ @Date :2022/11/2 @Author 阅读全文
posted @ 2022-11-18 16:36 今夜无风 阅读(969) 评论(0) 推荐(0) 编辑
摘要: Actor(策略网络)和 Critic(价值网络) Actor 要做的是与环境交互,并在 Critic 价值函数的指导下用策略梯度学习一个更好的策略。 Critic 要做的是通过 Actor 与环境交互收集的数据学习一个价值函数,这个价值函数会用于判断在当前状态什么动作是好的,什么动作不是好的,进而 阅读全文
posted @ 2022-11-15 23:44 今夜无风 阅读(638) 评论(0) 推荐(0) 编辑
摘要: 基于策略的学习方法:直接显示地学习一个目标策略 策略梯度基于策略的方法基础 基于策略的学习方法:寻找最优策略并最大化这个策略在环境的期望回报 让策略更多地采样到带来较高Q值的动作 import random import gym import torch import numpy as np fro 阅读全文
posted @ 2022-11-15 18:43 今夜无风 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 引入优势函数A,优势函数A = 状态动作价值函数Q - 状态价值函数V。 在同一状态下,所有动作的优势值为零。因为,所有的动作的状态动作价值的期望就是状态价值。 实现代码: import random import gym import torch import numpy as np from m 阅读全文
posted @ 2022-11-14 18:06 今夜无风 阅读(82) 评论(0) 推荐(0) 编辑
摘要: 解决DQN的高估问题。即利用一套神经网络的输出选取价值最大的动作,但在使用该动作的价值时,用另一套神经网络计算该动作的价值。 import random import gym import torch import numpy as np from matplotlib import pyplot 阅读全文
posted @ 2022-11-13 19:33 今夜无风 阅读(120) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 64 下一页