pyTorch模型调优NPU

性能分析工具pyTorch Profiling

CANN Profiling

看task duration

调优手段1：使用亲和的数据类型

用AMP训练

AICore不支持torch.long.Tensor类型，会自动切换AICPU,影响训练。

调优手段2：优化调度耗时（融合tensor）

融合算子

昇腾要求输入tensor连续，所以进行非连续内存转连续内存

使用自动调优工具AOE

绑核，提升cpu性能（对于ARM服务器提升较大，对于x86一般）

具体算子调优

roll算子运行时间过长

了解其功能用相同语义替换。

具体模块优化

PATCH

NPU可以理解为c++全部一起编译

GPU来一行编译一行

posted @ 2024-07-24 15:32 ITJAMESKING 阅读(307) 评论(0) 收藏举报

刷新页面返回顶部

guoziheng