Run Horovod
Run Horovod
https://horovod.readthedocs.io/en/stable/running_include.html
https://horovod.readthedocs.io/en/stable/running.html
horovodrun训练,通过-np 指定线程数
1. 单机 4卡
$ horovodrun -np 4 -H localhost:4 python train.py
2. 4太机器,每台机器4卡
$ horovodrun -np 16 -H server1:4,server2:4,server3:4,server4:4 python train.py
3. 通过配置文件指定节点,节点的线程数
$ cat myhostfile
aa slots=2
bb slots=2
cc slots=2
-
其中 aa,bb,cc 是主机的名字
-
slots 是每个主机上可以执行的线程数
$ horovodrun -np 6 -hostfile myhostfile python train.py
3. To run using Open MPI
https://horovod.readthedocs.io/en/stable/mpirun.html
4. Horovod in Docker
https://horovod.readthedocs.io/en/latest/docker_include.html
5.To run in Kubernetes, see Kubeflow, MPI Operator, Helm Chart, FfDL, and Polyaxon.
https://github.com/kubeflow/examples/tree/master/demos/yelp_demo/ks_app/vendor/kubeflow/mpi-job
6.To run in Spark, see Spark.
7.To run in Singularity, see Singularity.
8.To run in a LSF HPC cluster (e.g. Summit), see LSF.
不要小瞧女程序员
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具
2019-07-28 2. IntelliJ Idea 常用快捷键列表
2019-07-28 1. Intellij IDEA导入,主题修改,布局界面+部分工具栏菜单介绍
2019-07-28 17. Git refspec
2019-07-28 16. Git 远程分支,别名,gitk 与git gui
2019-07-28 15. Git分支最佳实践
2019-07-28 14. Git 远程协作模型
2019-07-28 13. Git协作