본문 바로가기
기술관련 기록

Ubuntu16.04, RTX3090, nvidia-smi 로 서로 다른 gpu 인식 안됨

by 저녁추천좀 2021. 9. 16.

 

원래 3090이 두개 있던 서버에

서로 다른 제조사의 3090(gpu0:350W, gpu1:420W)을 설치했는데 nvidia-smi시 gpu0 만 인식되고 gpu1이 인식되지 않았다.

lspci

하였을 때 2개의 장치가 인식되는 것을 확인하였다. 

그래서 driver 문제라 생각하고 드라이버 재설치를 진행함. 

 

<ctrl> + <alt> + <F1> -> CLI
sudo service lightdm stop # stop X server
<install nvidia driver>
sudo service lightdm start

한 뒤에 도 안되서

dmesg

해보니까  client 는 470 인데 kernel 은 455 라 에러가 발생하였다.

 

여기서부터 kernel의 455를 날리려고 그냥 되는대로 막 해보았음

  

sudo dpkg --list | grep nvidia

sudo apt autoremove nvidia-455

sudo apt-get remove --purge '^nvidia-.\*'

sudo apt-get install ubuntu-desktop

sudo rm /etc/X11/xorg.conf

echo 'nouveau' | sudo tee -a /etc/modules

sudo apt install nvidia-driver-470
-> unable
sudo apt-get update

sudo add-apt-repository ppa:graphics-drivers/ppa

 

이런짓 저런짓 하다가 재부팅하니까 되긴되었는데, 뭘로 되게 한거지?

 


 

이후에도 동일하지 않은  gpu를 연결해서 한번에 된적이 없다. 

커널 버전을 맞추려면 서로 다른 gpu버전을 설치할 떄, 그냥 OS도 같이 새로 깔아서 cuda를 처음부터 하는게 편할 거 같다. 

 


2022.08

 

지금 생각해보니 저렇게 이슈가 발생할 때는, 기존에 쓰던 gpu를 교체하거나, 1개만 달려있던 상황에서 추가하는 경우이다.   한번에 된 경우가 하나 있는데, 그 때는 새로 조립한 서버였다. 기존 gpu에 맞춰서 커널 드라이버가 설치가 되고, 이것을 나중에 수정하다가 잘 안되는 것 같다.  새로 조립한 서버거나  os를 처음부터 설치할 것이면 괜찮지 않을까? 

 
each other, one another