nvidia显卡故障记录

发布时间 2023-06-25 10:53:27作者: ishmaelwanglin

问题一:

描述

重启后,显卡就找不到驱动,因为都采用了同一个型号显卡且安装了相同版本的驱动,故猜测可能是硬件问题

排查过程

lspci |grep -i nvidia

可以看到pci号是01:00.0, 通过此pci号,查看一下详细信息

lspci -s 01:00.0 -vv

通过图上的信息可以发现"!!! Unknown header type 7f" , 通过英伟达的网站上查询,大致解释为:PCIe从BUS上脱落导致
lspci -s 01:00.0 -b 可以看到如下信息,未赋值的类地址是ffff,无效地址

通过命令ubuntu-driver devices 可以看到推荐的当前显卡驱动为470版本

而当前系统所使用的驱动版本,如下, 和推荐的版本 一致,基本认为是显卡本身存在一些缺陷导致从总线脱落或者电压不足

问题原因

根据英伟达网站显示,判定是显卡自身故障

问题二:

描述

联想笔记本P15V
nvidia-smi命令报错如下:
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running

这是一个常见问题,经常出现在ubuntu系统中,主要原因还是系统内核升级了,导致新版本内核和原来显卡驱动不匹配

排查步骤

执行命令cat /proc/driver/nvidia/version查看驱动版本,文件不存在
ubuntu-driver devices查看当前驱动版本是510 , 推荐的是470
卸载了510之后 安装470 提示输入secrure boot密码, 应该是bios的secure boot开启状态导致。

原因

BIOS设置中Secure boot默认是开启的,所以无法升级或降级内核,因此需要进入bios中把其Secure boot禁用,即可安装NVIDIA最新驱动。

修改BIOS方法

开机按F1进入bios ,选择Security->Secure Boot

右侧将Secure Boot设置为off