博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

07 2023 档案

摘要:在了解PPO之前,首先需要了解Policy Gradient,PPO是建立在PG上的。 ### Policy Gradient 基本参考[【强化学习2】Policy Gradient - LGC的文章 - 知乎](https://zhuanlan.zhihu.com/p/66205274)进行整理。 阅读全文

posted @ 2023-07-25 00:03 Antel 阅读(6308) 评论(0) 推荐(0)

摘要:TensorRT的使用,尝试对LLM进行加速。本文为采坑记录 环境:ubuntu20.04, cuda 12.2, pytorch 2.0.1, tensorrt 8.6.1, torch_tensorrt 1.4.0, transformer 0.6.0 设备有限,仅打算尝试[opt-1.3b]( 阅读全文

posted @ 2023-07-18 20:25 Antel 阅读(2776) 评论(5) 推荐(1)

摘要:目录 记录下遇到的各种工具,感谢前人栽树,后人乘凉。 目录按照字母顺序,大小写不敏感 目录目录工具DeepSpeedFSDPggmllamma.cpplangchainLLVMMegatronNCCLpoetryTritonTVMXLA 工具 DeepSpeed DeepSpeed是对transfo 阅读全文

posted @ 2023-07-03 20:05 Antel 阅读(1627) 评论(0) 推荐(0)