深度学习ubuntu系统重装配置

本文详细介绍了Ubuntu系统重装后的基本软件安装与配置流程,包括网络代理、深度学习环境搭建所需的CUDA与CUDNN安装、pip及git代理配置等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

由于ubuntu系统经常因为各种原因出现问题,导致重装了好几次。遂记录重装系统后整个环境的安装配置过程,以免下次又得重装。(不定期更新)

基本软件安装

安装好系统后,需要安装一些常用的软件。下面罗列:

  1. Chrome浏览器
  2. 搜狗输入法
  3. qq
  4. 网易云
  5. wps

proxy配置

参考

sudo apt install libcanberra-gtk-module libcanberra-gtk3-module gconf2 gconf-service libappindicator1 python
#可选
sudo apt-get install libssl-dev
sudo apt-get install libsodium-dev

直接安装electron
将设置里的代理地址设为127.0.0.1,http/https端口为12333,sock为1080

安装cuda10.1和cudnn

参考
禁用Nouveau驱动

# 需要g++和gcc
sudo apt-get install gcc g++
sudo sh ./*.run

pip网络配置

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple -U pip
pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

在~/.config/pip/中出现pip.conf,编辑其为如下:

[global]
timeout=40
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
extra-index-url=https://pypi.python.org/simple

设置proxy

pip3 --proxy 127.0.0.1:12333 install

或者在.bashrc中添加

alias pip3="pip3 --proxy 127.0.0.1:12333"

安装nautilus-admin

sudo apt install nautilus-admin
nautilus -q

配置深度学习环境

pip3 install virtualenv

记得重启之后才生效

git代理设置

git config --global https.proxy http://127.0.0.1:12333
git config --global --unset https.proxy

搜狗输入法安装

参考

有道词典安装

参考

hexo配置

参考
参考
其中注意nodejs需要升级

sudo npm install -g n
sudo n v12.14.1

强化学习环境配置

gym安装

pip3 install gym==0.12.5
pip3 install atari-py
pip3 install box2d-py
pip3 install pyglet==1.3.2

如果要玩box2d中的CarRacing,就一定要安装pyglet1.3.2版本的,别问,问就是BUG

jupyter lab安装

pip3 install jupyterlab
## 启动
jupyter lab

jupyter使用virtualenv

激活创建的虚拟环境,然后在此环境下

pip3 install ipykernel
python -m ipykernel install --user --name=[kernel名]

jupyter软件

参考
个人觉得挺好用,很方便,除了不能自动补全

Shell扩展

system-monitor

在应用商店搜索system-monitor安装,需要先安装依赖项,参考

Docker配置

sudo 权限设置

sudo groupadd docker
sudo gpasswd -a ${USER} docker
sudo systemctl restart docker
sudo chmod a+rw /var/run/docker.sock

proxy设置

进入/etc/文件夹搜索docker.server,添加如下指令

[Service]
Environment="HTTP_PROXY=http://proxy.example.com:8080/"
Environment="HTTPS_PROXY=http://proxy.example.com:8080/"

docker换源
编辑/etc/docker/daemon.json,没有就创一个

{
  "registry-mirrors" : [
    "http://ovfftd6p.mirror.aliyuncs.com",
    "http://registry.docker-cn.com",
    "http://docker.mirrors.ustc.edu.cn",
    "http://hub-mirror.c.163.com"
  ],
  "insecure-registries" : [
    "registry.docker-cn.com",
    "docker.mirrors.ustc.edu.cn"
  ],
  "debug" : true,
  "experimental" : true
}

安装Flatpak以访问更多应用程序

sudo apt install flatpak
sudo apt install gnome-software-plugin-flatpak
flatpak remote-add --if-not-exists flathub https://flathub.org/repo/flathub.flatpakrepo

shell 插件

system-monitor

sudo apt-get install gir1.2-gtop-2.0 gir1.2-networkmanager-1.0 gir1.2-clutter-1.0
<think>好的,我现在需要帮助用户了解如何在Ubuntu系统上重新安装NVIDIA H100的驱动。首先,我得确认H100的驱动安装步骤是否与一般NVIDIA GPU相同,还是有什么特别之处。因为H100是比较新的GPU,可能需要特定的驱动版本。 首先,我应该回忆一下常规的NVIDIA驱动安装步骤。通常包括禁用nouveau驱动、添加官方仓库、安装驱动、然后重启。但H100可能要求更新的驱动版本,比如需要CUDA 12.x以上,所以可能需要从NVIDIA官网下载最新的驱动包,或者通过他们的仓库安装。 然后,用户提到的是“重装”驱动,可能之前安装有问题,或者需要升级。这时候可能需要先卸载现有的驱动。卸载步骤通常是用nvidia-uninstall命令,或者通过apt purge删除相关包。 接下来,我需要考虑系统的兼容性。Ubuntu的版本是否支持H100?比如,Ubuntu 22.04 LTS或者20.04是否适用?可能需要用户确认系统版本。另外,内核版本是否足够新,可能需要更新到5.15或更高。 另外,安装方式有两种常见的方法:使用Ubuntu的仓库中的驱动,或者从NVIDIA官网下载.run文件手动安装。仓库的版本可能不是最新的,但比较方便;手动安装可以获取最新驱动,但步骤更多,容易出错。 还需要注意Secure Boot的问题,如果在UEFI系统中启用了Secure Boot,可能需要禁用,或者为NVIDIA驱动签名,否则驱动无法加载。 可能还需要安装CUDA Toolkit,特别是如果用户需要用于深度学习等应用,CUDA和驱动是分开安装的,但驱动版本需要和CUDA版本兼容。H100可能需要CUDA 12.x,而CUDA 12.x又需要驱动版本535以上。 现在,我需要把这些步骤整理成一个清晰的流程,包括卸载旧驱动、添加仓库、安装驱动、处理Secure Boot、验证安装等。同时,要提醒用户注意版本匹配和可能遇到的问题,比如黑屏、驱动不加载等情况的解决办法。 可能还需要检查PCIe设备是否正确识别,使用lspci命令查看GPU是否被系统检测到,这是安装驱动的前提。如果硬件没被识别,可能需要检查硬件连接或主板设置。 最后,确认安装成功的方法,比如使用nvidia-smi命令查看GPU状态,确认驱动版本和GPU信息正确显示。 总结步骤应该是: 1. 卸载现有驱动 2. 禁用nouveau驱动 3. 添加NVIDIA官方仓库 4. 安装指定版本的驱动 5. 处理Secure Boot(如果需要) 6. 重启并验证安装</think>以下是在Ubuntu系统上重装NVIDIA H100显卡驱动的详细步骤: 1. **卸载旧驱动** ```bash sudo apt purge *nvidia* *cuda* -y sudo /usr/bin/nvidia-uninstall sudo reboot ``` 2. **禁用nouveau驱动** ```bash sudo nano /etc/modprobe.d/blacklist-nouveau.conf # 添加以下内容: blacklist nouveau options nouveau modeset=0 sudo update-initramfs -u sudo reboot ``` 3. **添加NVIDIA官方仓库** ```bash sudo apt install software-properties-common -y sudo add-apt-repository ppa:graphics-drivers/ppa -y sudo apt update ``` 4. **安装H100专用驱动(2023年最新推荐)** ```bash # H100需要至少525.85.05版本驱动 sudo apt install nvidia-driver-535 -y # 最新生产版本 # 或指定具体版本 sudo apt install nvidia-driver-535-server -y # 数据中心专用版本 ``` 5. **处理Secure Boot(重要!)** ```bash # 重启时进入MOK管理界面 sudo mokutil --disable-validation # 或选择生成密钥签名 # 根据提示设置密码并确认操作 ``` 6. **验证安装** ```bash nvidia-smi # 应显示如下信息 # +-----------------------------------------------------------------------------+ # | NVIDIA-SMI 535.86.05 Driver Version: 535.86.05 CUDA Version: 12.2 | # |-------------------------------+----------------------+----------------------+ # | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | # | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | # | | | MIG M. | # |===============================+======================+======================| # | 0 NVIDIA H100 80G On | 00000000:3B:00.0 Off | 0 | # | N/A N/A P0 N/A / N/A | 0MiB / 81920MiB | 0% Default | ``` **常见问题处理:** 1. **黑屏问题**:安装时添加`nomodeset`参数 - GRUB界面按`e`键编辑启动参数 - 在`linux`行末尾添加`nomodeset` 2. **驱动版本冲突**: ```bash sudo apt autoremove sudo apt install --reinstall nvidia-driver-535 ``` 3. **持久化模式设置(数据中心建议)**: ```bash sudo nvidia-smi -pm 1 # 启用持久化模式 sudo nvidia-smi -ac 715,1410 # 设置时钟频率 ``` **升级建议**: - 定期检查更新: ```bash sudo ubuntu-drivers list # 查看可用驱动版本 sudo ubuntu-drivers autoinstall # 自动安装推荐版本 ``` **重要提示**: 1. H100需要搭配PCIe 4.0 x16插槽 2. 建议使用Ubuntu 22.04 LTS或更新版本 3. 多卡配置需安装nvswitch服务: ```bash sudo apt install nvidia-fabricmanager-535 sudo systemctl enable nvidia-fabricmanager ``` 如果遇到硬件识别问题,可尝试强制刷新PCI设备: ```bash echo 1 | sudo tee /sys/bus/pci/rescan ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值