GPU常用命令

本文介绍了在模型训练中如何指定显卡进行训练的两种方法,包括在程序开头设置环境变量和在运行命令前添加参数。同时,讲解了使用`nvidia-smi`命令来查看显卡状态,并通过`sudo nvidia-smi pm -i 1`实现显卡的持久化设置。这些技巧对于有效管理和监控GPU资源在深度学习训练中至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

总结

  • 文章来源:CSDN_LawsonAbs
  • 给出模型训练中常用的命令

1 指定显卡训练

指定显卡训练有多种方法,这里简单列举两种。

1.1 在程序头添加

有时候,如果我们想在程序运行时就指定使用哪一块显卡,就可以在程序头部添加如下命令:

import os
os.environ[“CUDA_VISIBLE_DEVICES”] = “2”

1.2 在运行的命令前添加

CUDA_VISIBLE_DEVICES=0 这就代表使用第0块显卡。

2 查看显卡状态

nvidia-smi
查看显卡当前使用状态

watch -n2 nvidia-smi : 每隔2s 刷新 nvidia-smi 命令得到得输出
在这里插入图片描述

持久化显卡

sudo nvidia-smi -pm 1

### GPU 服务器管理常用命令及用法 #### 查看 Linux 系统信息和配置信息 为了确保系统的兼容性和稳定性,在安装任何软件之前,了解当前的操作系统版本及其内核是非常重要的。可以使用 `uname` 和 `cat /etc/os-release` 命令来获取这些基本信息[^1]。 ```bash uname -a cat /etc/os-release ``` #### 检查 GPU 使用情况 对于 GPU 的监控至关重要,这有助于管理员及时发现并解决问题。通过运行 `nvidia-smi` 可以实时查看 NVIDIA 显卡的状态以及资源占用率;而利用 `watch -n 1 nvidia-smi` 则能每隔一秒刷新一次显示结果,便于持续跟踪性能变化[^4]。 ```bash nvidia-smi watch -n 1 nvidia-smi ``` 当遇到 `nvidia-smi` 执行失败的情况时,可能是因为缺少必要的驱动支持或是现有驱动存在问题所致。此时应当考虑重新部署最新的官方推荐版次的 GPU 驱动程序[^2]。 #### 控制特定 GPU 设备可见性 有时项目开发过程中仅需调用某一块或多块指定编号的 GPU 资源工作,则可通过设置环境变量的方式实现这一需求。下面的例子展示了如何限定应用程序只看到 ID 编号为 “0”的那张显卡: ```python import os os.environ["CUDA_VISIBLE_DEVICES"] = "0" ``` #### 限制单个进程所能消耗的最大 GPU 内存比例 为了避免某个任务独占过多硬件资源从而影响其他正在排队等待计算的任务正常运转,可以通过 TensorFlow 提供的相关 API 接口设定每个会话允许使用的最大内存份额。这里给出了一段 Python 代码片段用于控制每次启动模型训练期间最多可分配给该过程多少百分比的可用图形处理单元空间。 ```python import tensorflow as tf from keras.backend.tensorflow_backend import set_session config = tf.ConfigProto() config.gpu_options.per_process_gpu_memory_fraction = 0.3 set_session(tf.Session(config=config)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

说文科技

看书人不妨赏个酒钱?

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值