没有合适的资源?快使用搜索试试~ 我知道了~
PyTorch Elastic :PyTorch分布式训练框架-python
共107个文件
py:23个
md:18个
yaml:18个
需积分: 50 7 下载量 35 浏览量
2021-06-18
20:40:29
上传
评论 2
收藏 554KB ZIP 举报
温馨提示
PyTorch Elastic :PyTorch分布式训练框架 TorchElastic TorchElastic 允许您以容错和弹性的方式启动分布式 PyTorch 作业。 有关最新文档,请参阅我们的网站。 要求 torchelastic 需要 python3 (3.6+) torch etcd 安装 pip install torchelastic Quickstart 容错在 4 个节点上,8 个训练器/节点,总共 4 * 8 = 32 个训练器。 在所有节点上运行以下命令。 python -m torchelastic.distributed.launch --nnodes=4 --nproc_per_node=8 --rdzv_id=JOB_ID --rdzv_backend=etcd --rdzv_endpoint=ETCD_HOST:ETCD_PORT YOUR_TRAINING_SCRIPT.py (--arg1 ...训练脚本参数.. .) 弹性在 1 ~ 4 个节点上,8 个训练器/节点,总共 8 ~ 32 个训练器。 作业在 1 个节点健康后立即开始,您
资源推荐
资源详情
资源评论
格式:zip 资源大小:759.6KB
格式:pdf 资源大小:359.7KB 页数:14
格式:pdf 资源大小:339.1KB 页数:11
格式:pdf 资源大小:8.8MB 页数:118
收起资源包目录
PyTorch Elastic :PyTorch分布式训练框架-python (107个子文件)
Dockerfile 1006B
Dockerfile 912B
Dockerfile 662B
Dockerfile 342B
Dockerfile 168B
.dockerignore 16B
fetch_and_run 2KB
.gitignore 334B
elasticjob_controller.go 7KB
job.go 7KB
expectation.go 4KB
pod.go 4KB
zz_generated.deepcopy.go 4KB
service.go 3KB
elasticjob_types.go 3KB
main.go 2KB
suite_test.go 2KB
util.go 1KB
groupversion_info.go 890B
constants.go 409B
install_etcd 1KB
torchelastic_agent_diagram.jpg 219KB
torchelastic_diagram.jpg 177KB
efs-setup.jpg 169KB
kubernetes.json 1KB
sample_specs.json 850B
LICENSE 1KB
Makefile 2KB
Makefile 891B
README.md 13KB
README.md 10KB
torchelastic-operator-design.md 8KB
design_doc.md 8KB
TROUBLESHOOTING.md 7KB
README.md 6KB
README.md 6KB
README.md 6KB
CODE_OF_CONDUCT.md 3KB
CHANGELOG.md 3KB
README.md 2KB
CONTRIBUTING.md 1KB
bug-report.md 1KB
DEVELOPMENT.md 858B
questions-help-support.md 769B
feature-request.md 504B
documentation.md 465B
pull_request_template.md 0B
go.mod 2KB
pytorch-logo-flame.png 1010B
PROJECT 144B
main.py 18KB
petctl.py 11KB
util.py 11KB
petctl.py 9KB
conf.py 9KB
autoscaling.py 8KB
__init__.py 4KB
cloudformation.py 3KB
s3.py 2KB
setup.py 2KB
session.py 2KB
create_redirect_md.py 2KB
suites.py 2KB
echo.py 1KB
util.py 1KB
__init__.py 444B
launch.py 386B
__init__.py 348B
__init__.py 230B
__init__.py 230B
__init__.py 230B
__init__.py 230B
__init__.py 230B
tsm_api.rst 1KB
index.rst 815B
tsm_driver.rst 792B
doc_push.sh 3KB
formatter_python.sh 2KB
go.sum 65KB
pytorch-logo-dark.svg 2KB
boilerplate.go.txt 202B
pip-delete-this-directory.txt 185B
requirements.txt 128B
requirements.txt 121B
requirements.txt 28B
user_data_rdzv 2KB
user_data_worker 3KB
elastic.pytorch.org_elasticjobs.yaml 6KB
sample_specs.yaml 1KB
imagenet.yaml 1KB
classy-vision.yaml 1KB
manager.yaml 802B
etcd.yaml 790B
role.yaml 772B
docker-compose.yaml 648B
kustomizeconfig.yaml 474B
leader_election_role.yaml 419B
kustomization.yaml 413B
elasticjob_editor_role.yaml 401B
elasticjob_viewer_role.yaml 339B共 107 条
- 1
- 2
资源评论
吃肥皂吐泡沫
- 粉丝: 50
上传资源 快速赚钱
我的内容管理
展开
我的资源
快来上传第一个资源
我的收益 登录查看自己的收益
我的积分
登录查看自己的积分
我的C币
登录后查看C币余额
我的收藏
我的下载
下载帮助
前往需求广场,查看用户热搜最新资源
- 设计方案PLC自动化控制系统时应遵循的基本原则.doc
- plc课程设计-物业供水系统报告.doc
- 基于51单片机和DS18B20的数字温度计方案设计书.doc
- 物联网技术下的农产品冷链物流配送优化研究.docx
- 信息管理类设计方案:信息管理类专业课程开放式教学平台构建及实践———以“信息服务与用户”课程网站为例.doc
- 水利水电工程项目管理方法探讨.docx
- 2008年7月自学历年考试管理系统中计算机应用试题.doc
- (源码)基于Arduino IDE的物联网设备编程项目.zip
- 《数据库技术与应用》实验指导书.doc
- IBM服务器安装步骤.doc
- 三种服务器虚拟化技术的实现.doc
- PLC在十字路口交通灯控制系统中的应用.doc
- MySQL基本语句和连接字符串JAVA程序员JAVA工程师面试必看.doc
- 大数据时代高职院校科研信息化管理对策研究.docx
- 特殊时期互联网+大学英语混合式教学模式探究.docx
- 探讨高中计算机的有效教学.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功