服务器重装系统后,需要重新安装显卡驱动、cuda及Pytorch等,有些步骤容易忘记,这里记录一下。这里我的服务器配置以及安装版本的情况如下:
- 服务器系统:Ubuntu 22.04
- 显卡型号:NVIDIA GeForce RTX 2080 Ti
- 显卡驱动版本:nvidia-driver-535
- cuda版本:CUDA Toolkit 12.2.0
- pytorch版本:torch 2.3.1
在PyTorch中使用CUDA,需要确保安装的PyTorch版本与你的CUDA版本兼容, 且正确安装了匹配GPU的CUDA Toolkit。以下是在PyTorch中使用CUDA的一般步骤:
-
检查CUDA支持: 首先,确保你的GPU支持CUDA。你可以在官方CUDA支持列表上查找你的GPU型号。或者直接命令行
nvidia-smi
进行查看。 -
安装CUDA Toolkit: 下载并安装与你的GPU型号匹配的CUDA Toolkit。你可以从NVIDIA官网下载。在安装期间,可以选择安装适用于你的系统的CUDNN库。
-
安装cuDNN(可选): cuDNN是NVIDIA的深度神经网络库,可以加速深度学习任务。在CUDNN下载页面下载适用于你的CUDA版本的cuDNN,并按照安装说明进行安装。
-
安装PyTorch: 选择合适的PyTorch版本并使用pip或conda进行安装。
1、安装显卡驱动
在终端命令行输入 nvidia-smi
命令,若正常显示显卡的基础信息,则已成功安装nvidia驱动。
nvidia-smi
如果报错,则按照以下步骤安装nvidia驱动,具体步骤如下:
- 找到合适自己电脑显卡的驱动
ubuntu-drivers devices
会显示你的电脑上可用的nvidia驱动。只需要安装推荐的版本即可(后面有recommend字样)
这里,服务器显示 nvidia-driver-535
是推荐安装的版本。
- 找到对应版本的显卡驱动
我们直接安装 nvidia-driver-535
即可:
sudo apt-get install nvidia-driver-535