摘要: bellman equation Bellman方程的主要作用是提供了一种递归的方法来计算值函数和动作值函数,从而帮助我们评估和优化策略。 对于值函数V(s), Bellman方程描述了当前状态的值与后续状态的值和即时奖励之间的关系。通过不断迭代更新值函数,我们可以逐步逼近最优值函数,并根据值函数来 阅读全文
posted @ 2024-05-23 17:31 kingchou007 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 首先,定义你的encoder模型的架构。这个架构应该与你训练权重时使用的架构相同。你可以使用PyTorch中的nn.Module来定义模型类。 import torch import torch.nn as nn class Encoder(nn.Module): def __init__(self 阅读全文
posted @ 2024-05-21 22:57 kingchou007 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 什么是最大似然估计? 先定义几个常用的术语。 1. 什么是参数? 在统计学中,参数是指用来描述一个统计模型的未知特征或属性。这些特征可以是概率分布的位置、形状、尺度等方面的性质,也可以是用于描述数据生成过程中的固定参数。参数通常是我们感兴趣的、要从数据中推断或估计的量。 举个例子,在线性回归模型中, 阅读全文
posted @ 2024-05-05 20:41 kingchou007 阅读(13) 评论(0) 推荐(0) 编辑
摘要: likelihood-based models,通过(近似)最大似然直接学习分布的probability density(或mass)函数。典型的基于似然的模型包括自回归模型、归一化流模型、基于能量的模型(EBMs)和变分自编码器(VAEs)。 概率质量函数(Probability Mass Fun 阅读全文
posted @ 2024-05-05 15:16 kingchou007 阅读(8) 评论(0) 推荐(0) 编辑
摘要: Basically the DataLoader works with the Dataset object. So to use the DataLoader you need to get your data into this Dataset wrapper. To do this you o 阅读全文
posted @ 2024-04-01 20:07 kingchou007 阅读(2) 评论(0) 推荐(0) 编辑
摘要: Single Contact We have composite configuration as \(q = (q_1,q_2)\). We define a distance function \(d(q)\) between the bodies that is positive when t 阅读全文
posted @ 2024-03-27 11:04 kingchou007 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 开一个记录帖。记录一下每天的工程问题,以及解决方案。 阅读全文
posted @ 2024-03-27 00:23 kingchou007 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 今天group meeting听到了这个terminology benchmark baseline主要关注自己提出的方法,比如最原始最简单的方法出来的结果(参照物)。然后再这个基础上改进,增加各种组件,可以看出提升了多少,通过baseline我们可以知道这个方法能不能work,有多少提升。 用别人 阅读全文
posted @ 2024-03-26 23:39 kingchou007 阅读(8) 评论(0) 推荐(0) 编辑
摘要: First of all, check your CUDA: nvcc -V or nvcc --version If there is nothing: export CUDA_HOME=/usr/local/cuda-<version> # Replace <version> with your 阅读全文
posted @ 2024-02-28 21:30 kingchou007 阅读(2) 评论(0) 推荐(0) 编辑
摘要: Failed to initialize NVML: Driver/library version mismatch NVML library version: 535.161 solution: sudo reboot 阅读全文
posted @ 2024-02-28 21:24 kingchou007 阅读(265) 评论(0) 推荐(0) 编辑