원래 3090이 두개 있던 서버에
서로 다른 제조사의 3090(gpu0:350W, gpu1:420W)을 설치했는데 nvidia-smi시 gpu0 만 인식되고 gpu1이 인식되지 않았다.
lspci
하였을 때 2개의 장치가 인식되는 것을 확인하였다.
그래서 driver 문제라 생각하고 드라이버 재설치를 진행함.
- installed nvidia 470
https://www.nvidia.co.kr/Download/index.aspx?lang=kr - reference
https://dfso2222.tistory.com/69
<ctrl> + <alt> + <F1> -> CLI
sudo service lightdm stop # stop X server
<install nvidia driver>
sudo service lightdm start
한 뒤에 도 안되서
dmesg
해보니까 client 는 470 인데 kernel 은 455 라 에러가 발생하였다.
여기서부터 kernel의 455를 날리려고 그냥 되는대로 막 해보았음
sudo dpkg --list | grep nvidia
sudo apt autoremove nvidia-455
sudo apt-get remove --purge '^nvidia-.\*'
sudo apt-get install ubuntu-desktop
sudo rm /etc/X11/xorg.conf
echo 'nouveau' | sudo tee -a /etc/modules
sudo apt install nvidia-driver-470
-> unable
sudo apt-get update
sudo add-apt-repository ppa:graphics-drivers/ppa
이런짓 저런짓 하다가 재부팅하니까 되긴되었는데, 뭘로 되게 한거지?
이후에도 동일하지 않은 gpu를 연결해서 한번에 된적이 없다.
커널 버전을 맞추려면 서로 다른 gpu버전을 설치할 떄, 그냥 OS도 같이 새로 깔아서 cuda를 처음부터 하는게 편할 거 같다.
2022.08
지금 생각해보니 저렇게 이슈가 발생할 때는, 기존에 쓰던 gpu를 교체하거나, 1개만 달려있던 상황에서 추가하는 경우이다. 한번에 된 경우가 하나 있는데, 그 때는 새로 조립한 서버였다. 기존 gpu에 맞춰서 커널 드라이버가 설치가 되고, 이것을 나중에 수정하다가 잘 안되는 것 같다. 새로 조립한 서버거나 os를 처음부터 설치할 것이면 괜찮지 않을까?
'기술관련 기록' 카테고리의 다른 글
VS code remote ssh 안됨 (0) | 2022.02.07 |
---|---|
nvidia-docker 와 nvidia container runtime의 차이 (0) | 2021.12.01 |
DeprecationWarning: `np.float` is a deprecated alias for the builtin `float` (0) | 2021.08.13 |
Cross-Correlation (0) | 2021.03.18 |
ubuntu input/output error (0) | 2021.02.02 |