如何监控NVIDIA GPU服务器?

本文介绍如何使用NVIDIA的dcgm-exporter工具监控GPU状态。通过docker安装并运行该工具,可获取包括频率、温度、功耗等在内的多种GPU指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

可使用NVIDIA官方提供的dcgm-exporter监控GPU,项目地址:https://github.com/NVIDIA/dcgm-exporter,推荐使用docker安装:

docker run -d --gpus all --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:3.0.4-3.0.0-ubuntu20.04

需要使用高版本docker,低版本docker无法使用--gpus参数。

如上述镜像无法拉取,可使用我存在阿里云的镜像:

docker run -d --gpus all --rm -p 9400:9400 registry.cn-hangzhou.aliyuncs.com/zhangrongjie/dcgm-exporter:3.0.4-3.0.0-ubuntu20.04

指标地址为:http://localhost:9400/metrics

Grafana dashboard:https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/

指标释义如下:

# HELP DCGM_FI_DEV_SM_CLOCK SM clock frequency (in MHz).
# TYPE DCGM_FI_DEV_SM_CLOCK gauge

# HELP DCGM_FI_DEV_MEM_CLOCK Memory clock frequency (in MHz).
# TYPE DCGM_FI_DEV_MEM_CLOCK gauge

# HELP DCGM_FI_DEV_GPU_TEMP GPU temperature (in C).
# TYPE DCGM_FI_DEV_GPU_TEMP gauge

# HELP DCGM_FI_DEV_POWER_USAGE Power draw (in W).
# TYPE DCGM_FI_DEV_POWER_USAGE gauge

# HELP DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Total energy consumption since boot (in mJ).
# TYPE DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION counter

# HELP DCGM_FI_DEV_PCIE_REPLAY_COUNTER Total number of PCIe retries.
# TYPE DCGM_FI_DEV_PCIE_REPLAY_COUNTER counter

# HELP DCGM_FI_DEV_GPU_UTIL GPU utilization (in %).
# TYPE DCGM_FI_DEV_GPU_UTIL gauge

# HELP DCGM_FI_DEV_MEM_COPY_UTIL Memory utilization (in %).
# TYPE DCGM_FI_DEV_MEM_COPY_UTIL gauge

# HELP DCGM_FI_DEV_ENC_UTIL Encoder utilization (in %).
# TYPE DCGM_FI_DEV_ENC_UTIL gauge

# HELP DCGM_FI_DEV_DEC_UTIL Decoder utilization (in %).
# TYPE DCGM_FI_DEV_DEC_UTIL gauge

# HELP DCGM_FI_DEV_XID_ERRORS Value of the last XID error encountered.
# TYPE DCGM_FI_DEV_XID_ERRORS gauge

# HELP DCGM_FI_DEV_FB_FREE Framebuffer memory free (in MiB).
# TYPE DCGM_FI_DEV_FB_FREE gauge

# HELP DCGM_FI_DEV_FB_USED Framebuffer memory used (in MiB).
# TYPE DCGM_FI_DEV_FB_USED gauge

# HELP DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Total number of NVLink bandwidth counters for all lanes
# TYPE DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL counter

# HELP DCGM_FI_DEV_VGPU_LICENSE_STATUS vGPU License status
# TYPE DCGM_FI_DEV_VGPU_LICENSE_STATUS gauge

指标释义可参看:https://docs.nvidia.com/datacenter/cloud-native/gpu-telemetry/dcgm-exporter.html

<think>好的,用户想在C86海光服务器上安装NVIDIA GPU驱动,但提供的引用资料是关于V100 GPU的教程。首先,我需要确认C86海光服务器的架构是否与NVIDIA GPU兼容。海光处理器是基于x86架构的,理论上支持NVIDIA驱动,但需要注意操作系统版本和内核兼容性。 接下来,安装步骤可能包括:1. 下载正确的驱动版本,需要用户去NVIDIA官网根据操作系统选择对应的驱动。2. 安装依赖项,比如gcc、make、kernel-devel等,确保编译环境正常。3. 禁用nouveau驱动,避免冲突。4. 运行安装文件并按照提示操作。5. 验证安装是否成功。 同时,用户提供的引用中提到的V100驱动安装步骤可能大部分适用,但需要确认是否有特定于海光服务器的配置,比如固件或BIOS设置。此外,可能需要检查NVIDIA官方文档是否明确支持海光平台,或者是否有社区已知的兼容性问题。 用户可能遇到的问题包括驱动不兼容、安装后无法识别GPU等,需要建议查看系统日志排查错误。另外,如果海光服务器使用了非标准硬件配置,可能需要额外的步骤,比如更新主板固件或调整内核参数。 最后,生成相关问题时要覆盖安装前的准备、安装步骤、验证方法以及常见问题解决,帮助用户全面了解整个过程。</think>由于C86海光服务器基于x86架构,其NVIDIA GPU驱动安装流程与常规x86服务器相似,但需注意处理器兼容性验证。以下是具体步骤说明: 1. **系统环境准备** - 确认操作系统版本支持(建议CentOS 7.6+/Ubuntu 20.04 LTS) - 更新内核至最新版本:`sudo yum update kernel`(CentOS)[^1] - 安装开发工具包: ```bash sudo yum groupinstall "Development Tools" sudo yum install kernel-devel-$(uname -r) ``` 2. **驱动下载与验证** - 访问[NVIDIA驱动下载页](https://www.nvidia.com/Download/index.aspx) - 选择对应GPU型号和操作系统版本 - 验证文件完整性: ```bash md5sum NVIDIA-Linux-x86_64-*.run ``` 3. **安装过程** ```bash # 禁用nouveau驱动 echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf sudo dracut --force # 进入文本模式 sudo systemctl set-default multi-user.target sudo reboot # 执行安装程序 sudo chmod +x NVIDIA-Linux-x86_64-*.run sudo ./NVIDIA-Linux-x86_64-*.run -no-opengl-files ``` 4. **兼容性验证** - 检查海光处理器微码版本: ```bash grep -m 1 microcode /proc/cpuinfo ``` - 验证驱动加载: ```bash nvidia-smi lsmod | grep nvidia ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

洒满阳光的午后

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值