Ubuntu2404使用apt安装nvitop导致掉卡
原因
在Ubuntu 24.04版本中,一般可以使用apt安装nvitop。在其他Ubuntu版本,可以使用添加源的方式安装。
但是安装后运行nvitop或者nvidia-smi会显示如下内容,其他大部分依赖GPU的程序也无法运行,俗称掉卡或者掉驱动。
bash
>>> nvitop
NVML ERROR: RM has detected an NVML/RM version mismatch.
>>> nvidia-smi
Failed to initialize NVML: Driver/library version mismatch
NVML library version: 580.95这是因为apt安装nvitop时,会安装软件源特定版本的NVML,并且不会考虑机器的GPU driver版本,导致跟随nvitop安装的NVML和GPU driver版本不兼容。导致了掉卡。
卸载apt安装的nvitop
卸载apt安装的nvitop:
bash
apt purge nvitop # 卸载apt安装的nvitop
apt autoremove # 删除依赖包,目标是删除错误NVML重新验证 nvidia-smi
bash
nvidia-smi使用pip安装nvitop
bash
pip install nvitop # pip 安装 nvitop不会导致掉卡,可以正常使用