admin管理员组文章数量:1030011
【教程】PyTorch多机多卡分布式训练的参数说明
转载请注明出处:小锋学长生活大爆炸[xfxuezhagn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~
目录
torchrun
一、什么是 torchrun
二、torchrun 的核心参数讲解
三、torchrun 会自动设置的环境变量
四、torchrun 启动过程举例
机器 A(node_rank=0)上运行
机器 B(node_rank=1)上运行
五、小结表格
PyTorch
一、背景回顾
二、init_process_group
三、脚本中通常的典型写法
通用启动脚本
torchrun 与 torch.multiprocessing.spawn 的对比可以看这篇: 【知识】torchrun 与 torch.multiprocessing.spawn 的对比
torchrun
一、什么是 torchrun
torchrun
是 PyTorch 官方推荐的分布式训练启动器,它的作用是:
- 启动 多进程分布式训练(支持多 GPU,多节点)
- 自动设置每个进程的环境变量
- 协调节点之间建立通信
二、torchrun
的核心参数讲解
代码语言:javascript代码运行次数:0运行复制torchrun \
--nnodes=2 \
--nproc_per_node=2 \
--node_rank=0 \
--master_addr=192.168.5.228 \
--master_port=29400 \
xxx.py
转载请注明出处:小锋学长生活大爆炸[xfxuezhagn]
如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~
目录 torchrun 一、什么是 torchrun 二、torchrun 的核心参数讲解 三、torchrun 会自动设置的环境变量 四、torchrun 启动过程举例 机器 A(node_rank=0)上运行 机器 B(node_rank=1)上运行 五、小结表格 PyTorch 一、背景回顾 二、init_process_group 三、脚本中通常的典型写法 通用启动脚本 torchrun 与 torch.multiprocessing.spawn 的对比可以看这篇:
【知识】torchrun 与 torch.multiprocessing.spawn 的对比
本文标签:
教程PyTorch多机多卡分布式训练的参数说明
版权声明:本文标题:【教程】PyTorch多机多卡分布式训练的参数说明 内容由热心网友自发贡献,该文观点仅代表作者本人,
转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1747633495a2196301.html,
本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
【教程】PyTorch多机多卡分布式训练的参数说明
torchrun
一、什么是
torchrun
torchrun
是 PyTorch 官方推荐的分布式训练启动器,它的作用是:二、
代码语言:javascript代码运行次数:0运行复制torchrun
的核心参数讲解torchrun \
--nnodes=2 \
--nproc_per_node=2 \
--node_rank=0 \
--master_addr=192.168.5.228 \
--master_port=29400 \
xxx.py
发表评论