随笔档案「2023年7月」 - Antel

Proximal Policy Optimization(PPO)算法原理介绍学习笔记

摘要：在了解PPO之前，首先需要了解Policy Gradient，PPO是建立在PG上的。 ### Policy Gradient 基本参考[【强化学习2】Policy Gradient - LGC的文章 - 知乎](https://zhuanlan.zhihu.com/p/66205274)进行整理。阅读全文

posted @ 2023-07-25 00:03 Antel 阅读(6308) 评论(0) 推荐(0)

LLM + TensorRT 加速大模型

摘要：TensorRT的使用，尝试对LLM进行加速。本文为采坑记录环境：ubuntu20.04, cuda 12.2, pytorch 2.0.1, tensorrt 8.6.1, torch_tensorrt 1.4.0, transformer 0.6.0 设备有限，仅打算尝试[opt-1.3b]( 阅读全文

posted @ 2023-07-18 20:25 Antel 阅读(2776) 评论(5) 推荐(1)

大模型训练常见工具概念

摘要：目录记录下遇到的各种工具，感谢前人栽树，后人乘凉。目录按照字母顺序，大小写不敏感目录目录工具DeepSpeedFSDPggmllamma.cpplangchainLLVMMegatronNCCLpoetryTritonTVMXLA 工具 DeepSpeed DeepSpeed是对transfo 阅读全文

posted @ 2023-07-03 20:05 Antel 阅读(1627) 评论(0) 推荐(0)

Antel

公告

07 2023 档案

Proximal Policy Optimization(PPO)算法原理介绍学习笔记

LLM + TensorRT 加速大模型

大模型训练常见工具概念