데이터를 많이 사용하였을 때,
input/output error
가 발생하면서 더 이상 저장장치에 접근이 안되는 현상이 발생하였다.
일반적 용도로 사용을 하면 문제가 없었지만, 학습과 같은 데이터를 많이 사용하는 동작을 할 때, 발생하였다.
SDD를 사용할 때는, HDD를 사용할 때보다 더 빠르게 에러가 발생하였다.
SDD,HDD 교체, 그래픽카드 교체, OS 변경(Ubuntu16.04 -> Ubuntu20.04) 를 해보았지만 그대로 였다.
마지막으로 메인보드(ASUS C621E SAGE)를 교체하였는데, 해결 되었다.
메인보드 교체 후 보름 뒤 같은 현상 발생.
파워를 교체하였다.
---
한달 하고 보름 뒤 같은 문제 발생
---
그래픽 출력이 GPU에서 나오는 거랑 메인보드에 포트 설치한거에서 나오는 것이다 다르다.
해당 에러 발생시 메인보드에서 나오는 출력에서 SSD 경로로 에러가 떴고
HDD를 sshfs 로 외부에서 접근하고 있었는데
해당 문제 발생시에도 HDD에는 문제없이 접근이 가능하였다.
거의 모든 부품을 교체하였지만 SSD만 내가 직접교체하지 않고 교체했었다고
전해들은 것이라 SSD를 교체하였다.
---
잘 됨
---
2022.01
OSError: \[Errno 5\] Input/output error
이전에 input/output error 발생하였을 때는, 해당 저장장치가 아예 먹통이 되었는데, 이번에는 간혈적으로 해당 에러가 발생.
smartmontools 를 깔아서 체크해봤는데
ubuntu bad magic number in super-block
라고함. 백업 슈퍼블록을 사용하는 방식이 성공하지 않아서
걍 해당 HDD 포맷함
잘 돌아간다.
---
2023.02
다른 유저가 모델 학습을 돌렸을 떄, input/output error발생. speech서버.
2주정도 내가 학습,추론 할때는 문제가 없었는데, 해당 유저가 돌릴때 마다 죽음. 재부팅하면 돌아오긴 하는데, 문제있던 루틴을 돌릴때마다 재발함.
=> 재현가능한 문제이다. 해당 루틴을 파악하는건 귀찮지만, 만약에 이런 현상이 재발한다면 루틴에서 어떤 부분이 이슈가 되는지 파악해봐야겠다.
'기술관련 기록' 카테고리의 다른 글
DeprecationWarning: `np.float` is a deprecated alias for the builtin `float` (0) | 2021.08.13 |
---|---|
Cross-Correlation (0) | 2021.03.18 |
Token authentication requirements for Git operations / Personal Access Token(개인 접근 토큰) 생성하기 (0) | 2020.12.21 |
ubuntu sudo chrome (0) | 2020.08.03 |
NVIDIA cuda X server error (0) | 2020.07.30 |