Centos7.9显卡驱动更新
前言
因之前已按照过显卡驱动,但是显卡驱动过久,最近需要部署xinference进行拉取模型,但是cuda不支持,显卡驱动不支持,需要进行更新。
驱动更新前的关键准备
1.确认显卡型号
lspci | grep -i nvidia
[chenyh@localhost ~]$ lspci | grep -i nvidia
86:00.0 3D controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)
b1:00.0 3D controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)
2.查看当前驱动版本
nvidia-smi --query-gpu=driver_version --format=csv,noheader
[chenyh@localhost ~]$ nvidia-smi --query-gpu=driver_version --format=csv,noheader
450.80.02
450.80.02
3.根据ai给的建议
当前驱动状态分析
- 显卡型号
- 检测到两块 Tesla T4 计算卡(TU104GL 核心),属于专业级 GPU
- 驱动版本
- 当前驱动版本为 450.80.02,根据 NVIDIA 官方兼容性列表:
- 支持 CUDA 最高版本为 11.0
- 对应 RHEL 7.9 内核版本(3.10.0-1160)兼容性已验证
- 当前驱动版本为 450.80.02,根据 NVIDIA 官方兼容性列表:
- 系统环境
- RHEL 7.9(内核版本应 ≥3.10.0-1160)
- 需注意:该驱动版本发布于 2020 年,已无法支持 CUDA 12.x 等新特性
建议升级的场景
- 需要 CUDA 12.x 支持
- CUDA 12.4 要求驱动 ≥550.54.14
- 深度学习框架(如 PyTorch 2.3+)已逐步停止对 CUDA 11 的支持
- 安全与稳定性需求
- 旧版驱动存在已知漏洞(CVE-2021-1056 等)
- 新版驱动优化了 T4 的 MIG 功能和多实例 GPU 支持
Centos7.9/RHEL 7.9 驱动升级方案
下载驱动
我这边才有官方提供的手动 RPM 安装,从 NVIDIA 驱动下载页 选择对应驱动:
- 产品类型:Tesla
- 产品系列:T-Series
- 操作系统:Linux 64-bit RHEL 7
- 最新推荐驱动:550.144.03(CUDA 12.4 兼容)
安装驱动
上传下载好的nvidia-driver-local-repo-rhel7-550.144.03-1.0-1.x86_64.rpm
包,进行安装。
# 再次确认
lspci | grep -i nvidia # 查看显卡型号(如 Tesla T4)
nvidia-smi # 查看当前驱动版本(如 450.80.02)
uname -r # 确认内核版本(需与 kernel-devel 一致)
cat /etc/redhat-release # 确认系统版本(如 CentOS 7.9)
# 安装 EPEL 存储库
yum install -y epel-release
# 清理缓存并重建元数据
yum clean all
yum makecache
# 安装依赖包
yum install -y gcc kernel-devel-$(uname -r) dkms
# 安装仓库包(需 root 权限)
rpm -i nvidia-driver-local-repo-rhel7-550.144.03-1.0-1.x86_64.rpm
# 清理缓存并重建元数据
yum clean all
yum makecache
# 安装驱动
yum install cuda-drivers
# 重启机器
reboot
# 检查驱动版本,如下图即是更新成功
nvidia-smi