摘要:在了解PPO之前,首先需要了解Policy Gradient,PPO是建立在PG上的。 ### Policy Gradient 基本参考[【强化学习2】Policy Gradient - LGC的文章 - 知乎](https://zhuanlan.zhihu.com/p/66205274)进行整理。
阅读全文
posted @ 2023-07-25 00:03
07 2023 档案
摘要:在了解PPO之前,首先需要了解Policy Gradient,PPO是建立在PG上的。 ### Policy Gradient 基本参考[【强化学习2】Policy Gradient - LGC的文章 - 知乎](https://zhuanlan.zhihu.com/p/66205274)进行整理。
阅读全文
posted @ 2023-07-25 00:03
摘要:TensorRT的使用,尝试对LLM进行加速。本文为采坑记录 环境:ubuntu20.04, cuda 12.2, pytorch 2.0.1, tensorrt 8.6.1, torch_tensorrt 1.4.0, transformer 0.6.0 设备有限,仅打算尝试[opt-1.3b](
阅读全文
posted @ 2023-07-18 20:25
摘要:目录 记录下遇到的各种工具,感谢前人栽树,后人乘凉。 目录按照字母顺序,大小写不敏感 目录目录工具DeepSpeedFSDPggmllamma.cpplangchainLLVMMegatronNCCLpoetryTritonTVMXLA 工具 DeepSpeed DeepSpeed是对transfo
阅读全文
posted @ 2023-07-03 20:05
|
||