[Nvidia] nvidia-smi

本文介绍了如何使用命令行工具nvidia-smi来检测GPU的使用情况,包括GPU编号、风扇转速、温度、性能状态、能耗、显存使用率和GPU利用率等关键信息,帮助理解和监控GPU的工作状态。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

检测 GPU 使用状态

watch -n 3 nvidia-smi

或者

nvidia-smi -l 3
nvidia-smi --loop 3

显卡信息

在这里插入图片描述

  • GPU:编号,从 0 开始
  • Fan:风扇转速,0~100%
  • Name:显卡名
  • Temp:显卡温度
  • Perf:性能状态,从 P0 到 P12,P0 性能最大,P12 最小
  • Persistence-M:持续模式的状态开关,该模式耗能大,但是启动新 GPU 应用时比较快,一般是 Off
  • Pwr:能耗
  • Bus-Id:涉及GPU总线的东西
  • Disp.A:表示GPU的显示是否初始化,一般是 Off
  • Memory-Usage:显存使用率
  • GPU-Util:GPU 利用率
  • Compute M.:计算模式
<think>我们正在处理用户关于nvidia-smi命令的查询,特别是关于`nvidia-smi -q`命令的作用及用法。 根据提供的引用[1]和引用[2],我们可以得知: 引用[1]提到:“-q查询GPU详细信息:nvidia-smi -q”,并且还提到“只列出某一GPU的详细信息,可使用-i选项指定:nvidia-smi -q -i 0”。 引用[2]则解释了显存和GPU的关系,但并没有直接提供关于`nvidia-smi -q`的更多信息。 因此,我们主要依据引用[1]来回答用户的问题。 用户问题:请问nvidia-smi -q 命令的作用及用法 回答结构: 1. 解释命令的作用 2. 说明基本用法 3. 提供常用选项(如指定GPU) 4. 示例 同时,根据系统级指令,我们需要在回答中自然地添加引用标识,并在最后生成相关问题。 注意:由于引用[1]已经给出了具体的命令示例,我们可以直接引用。 另外,根据指令,我们使用中文回答,并且行内数学表达式使用$...$,但这个问题不涉及数学表达式,所以可以忽略。独立公式也没有,所以也不涉及。 最后,生成相关问题。 开始回答:</think>### `nvidia-smi -q` 命令详解 `nvidia-smi -q` 是 NVIDIA 显卡管理工具中的核心命令,用于**查询 GPU 的详细硬件和运行状态信息**。该命令输出的信息比默认的 `nvidia-smi` 更全面,适用于深度监控、故障排查和性能分析场景。 --- ### **一、命令作用** 1. **核心功能** - 显示 GPU 的完整配置信息(如架构、显存类型、电源限制等) - 实时监控运行状态(如温度、功耗、显存/GPU 利用率) - 列出当前 GPU 上运行的进程及其资源占用情况 - 提供 ECC 错误计数、PCIe 链路状态等诊断数据 2. **典型用途** - 诊断 GPU 性能瓶颈 - 验证硬件配置(如显存大小、CUDA 核心数) - 监控深度学习训练时的资源消耗 - 排查驱动程序或硬件故障 --- ### **二、基本用法** ```bash nvidia-smi -q ``` **输出内容示例**(关键部分): ```plaintext ==============NVSMI LOG============== Timestamp : Tue May 21 10:00:00 2024 Driver Version : 535.86.05 CUDA Version : 12.2 GPU 0000:01:00.0 Product Name : NVIDIA RTX A6000 Power Readings Power Management : Supported Power Draw : 98.76 W / 300.00 W # 当前功耗/最大功耗 Temperature GPU Current Temp : 56 C Utilization Gpu : 45 % # GPU计算利用率 Memory : 32 % # 显存带宽利用率 FB Memory Usage Total : 48684 MiB # 总显存 Used : 24576 MiB # 已用显存 Processes : Process ID : 12345 Used GPU Memory : 12288 MiB # 进程占用显存 ``` --- ### **三、常用选项** 通过组合参数实现定向查询: | **选项** | **作用** | **示例** | |----------|----------|----------| | `-i <ID>` | 指定 GPU 设备 | `nvidia-smi -q -i 0` # 查询第 0 号 GPU | | `-d <TAG>` | 按类别过滤信息 | `nvidia-smi -q -d MEMORY` # 仅显示显存信息 | | `-f <文件>` | 输出到文件 | `nvidia-smi -q -f gpu_log.txt` | | `-l <秒>` | 定时刷新输出 | `nvidia-smi -q -l 2` # 每 2 秒刷新一次 | **常用信息类别**(`-d` 参数支持): - `MEMORY`:显存使用详情 - `POWER`:功耗数据 - `TEMPERATURE`:温度传感器 - `UTILIZATION`:计算/显存利用率 - `ECC`:ECC 错误统计 - `CLOCK`:核心/显存时钟频率 > ⚠️ **注意**:可用选项可能因驱动版本和 GPU 型号而异,建议通过 `nvidia-smi --help` 查看完整说明[^1]。 --- ### **四、应用场景示例** 1. **检查多 GPU 系统** ```bash nvidia-smi -q -i 0,1 # 同时查询 GPU 0 和 GPU 1 ``` 2. **监控显存泄漏** ```bash watch -n 1 "nvidia-smi -q -d MEMORY | grep -A 3 'FB Memory Usage'" ``` 3. **导出完整配置报告** ```bash nvidia-smi -q > gpu_config_report.txt ``` --- ### **技术说明** - 输出数据直接来自 NVIDIA 驱动,无需额外权限(普通用户可执行)。 - 在容器环境中(如 Docker)可直接使用,但需映射设备(`--gpus all`)。 - 持久化数据需配合 `-pm 1` 启用持久模式(参考 `nvidia-smi -pm 1 -i 0`)[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值