摘要:
先插句广告,本人QQ522414928,不熟悉PID算法的可以一起交流学习,随时在线(PID资料再我的另一篇博客里) 倒立摆资料连接↓ https://www.cnblogs.com/LiuXinyu12378/p/11222614.html PID视频资料连接↓ https://www.cnblo 阅读全文
摘要:
我做PID算法的背景和经历:本人之前电子信息科学与技术专业,对控制方向颇感兴趣,刚上大学时听到实验室老师说PID算法,那年在暑假集训准备全国电子设计竞赛,我正在练习做一个以前专科的题目,帆板角度控制系统,还不懂PID是个什么玩意,老师让我把PID加到这个题目里。当时给了一些电子版的一些教程,但是没看 阅读全文
摘要:
--登录数据库 mysql -uroot -p 解释说明: -u表示用户名, -p:密码 --显示当前时间 select now(); --登出(退出)数据库 exit/quit/ctr+d --查看所有数据库 show databases; --创建数据库 create database py40 charset=utf8; --使用数据库 use py40; --查看数据库里面... 阅读全文
摘要:
lora 部分合并到原模型参数上 import torch from peft import PeftModel from transformers import AutoTokenizer, AutoModelForCausalLM, LlamaTokenizer from transformer 阅读全文
摘要:
import copy import os import sys dir_path = os.path.dirname(os.path.realpath(__file__)) sys.path.insert(0, dir_path) import contextlib import torch.ut 阅读全文
摘要:
其实KL散度在这个游戏里的作用不大,游戏的action比较简单,不像LM里的action是一个很大的向量,可以直接用surr1,最大化surr1,实验测试确实是这样,而且KL的系数不能给太大,否则惩罚力度太大,action model 和ref model产生的action其实分布的差距并不太大 i 阅读全文
摘要:
这个难度有些大,有两个policy,一个负责更新策略,另一个负责提供数据,实际这两个policy是一个东西,用policy1跑出一组数据给新的policy2训练,然后policy2跑数据给新的policy3训练,,,,直到policy(N-1)跑数据给新的policyN训练,过程感觉和DQN比较像, 阅读全文
摘要:
import pygame import numpy as np import random import sys # 定义迷宫环境 class Maze: def __init__(self): self.size = 10 self.maze = np.zeros((self.size, sel 阅读全文
摘要:
import gym import torch import torch.nn as nn import torch.optim as optim import pygame import sys # 定义Actor网络 class Actor(nn.Module): def __init__(se 阅读全文
摘要:
import gym import torch import torch.nn as nn import torch.optim as optim import random import pygame import sys from collections import deque # 定义DQN 阅读全文
摘要:
cartpole游戏,车上顶着一个自由摆动的杆子,实现杆子的平衡,杆子每次倒向一端车就开始移动让杆子保持动态直立的状态,策略函数使用一个两层的简单神经网络,输入状态有4个,车位置,车速度,杆角度,杆速度,输出action为左移动或右移动,输入状态发现至少要给3个才能稳定一会儿,给2个完全学不明白,给 阅读全文
摘要:
最近在搞分布式训练大模型,踩了两个晚上的坑今天终于爬出来了 我们使用 2台 8*H100 遇到过 错误1 10.255.19.85: ncclSystemError: System call (e.g. socket, malloc) or external library call failed 阅读全文
摘要:
如何实现图像搜索,文搜图,图搜图,CLIP+faiss向量数据库实现图像高效搜索 这是AIGC的时代,各种GPT大模型生成文本,还有多模态图文并茂大模型, 以及stable diffusion和stable video diffusion 图像生成视频生成等新模型, 层出不穷,如何生成一个图文并貌的 阅读全文