pytorch 断点续训练

复制代码
checkpoint  = torch.load('.pth')
    net.load_state_dict(checkpoint['net'])
    criterion_mse = torch.nn.MSELoss().to(cfg.device)
    criterion_L1 = L1Loss()
    optimizer = torch.optim.Adam([paras for paras in net.parameters() if paras.requires_grad == True], lr=cfg.lr)
    scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=cfg.n_steps, gamma=cfg.gamma)
    optimizer.load_state_dict(checkpoint['optimizer'])
    scheduler.load_state_dict= checkpoint['lr_schedule']
    start_epoch = checkpoint['epoch']

 for idx_epoch in range(start_epoch+1,80):
        scheduler.step()
        for idx_iter, () in enumerate(train_loader):
           

            _ = net()

         
            loss = criterion_mse(,)

            
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

           if idx_epoch % 1 == 0:
           
     
            checkpoint = {
                "net": net.state_dict(),#网络参数
                'optimizer': optimizer.state_dict(),#优化器
                "epoch": idx_epoch,#训练轮数
                'lr_schedule': scheduler.state_dict()#lr如何变化
            }
            torch.save(checkpoint,os.path.join(save_path, filename))
           
复制代码

 

复制代码
直接训练
a mean psnr:  28.160327919812364
a mean ssim:  0.8067064184409644
b mean psnr:  25.01364162100755
b mean ssim:  0.7600019779915981
c mean psnr:  25.83471135230011
c mean ssim:  0.7774989383731079

断点续训
a mean psnr:  28.15391601255439
a mean ssim:  0.8062857339309237
b mean psnr:  25.01115760689137
b mean ssim:  0.7596963993692107
c mean psnr:  25.842269038618145
c mean ssim:  0.7772710729947427
复制代码

 

断点续训的效果基本和直接训练一致,但仍有些差,后面会继续分析

posted on   cltt  阅读(817)  评论(2编辑  收藏  举报

编辑推荐:
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
历史上的今天:
2019-12-05 梯度下降 coursera.org
2018-12-05 f触发器、存储过程
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示