본문 바로가기
반응형

MLOps2

[MLOps] PyTorch GPU Out-Of-Memory 문제 해결 PyTorch를 이용하여 ML Pipeline을 개발하던 중 특정 시간에 학습을 시킬 때 메모리가 꽉 차서 모델 학습할 때 실패하는 경우가 있었다. ML Pipeline을 구성할 때 메모리도 넉넉하게 사용할 수 있도록 구성하지만 의도치 않게 OOM문제가 발생하는 경우가 있었다. APScheduler를 이용해서 구성했는데 학습을 하면서 out-of-memory 이슈가 발생해서 문제를 해결하기 위해 찾아보았고, 같은 이유로 해결방법을 찾는 사람들에게 도움이 되고자 한다. 파이토치 뿐만 아니라 텐서플로우를 사용하더라도 마찬가지이므로 도움이 될 것 이다. GPU Out-Of-Memory 발생 RuntimeError: CUDA out of memory. Tried to allocate 126.00 MiB (GPU.. 2021. 7. 17.
MLOps | ML Pipeline 개발 일지 개념 및 배경 MLOps (기계 학습 운영)는 기계 학습을 원활하고 효율적으로 개발하고 유지하는 것이다. 목표는 ML 파이프라인을 자동화하여 모델을 지속적으로 학습시키는 것이다. 이를 통해 모델 예측 서비스를 지속적으로 제공할 수 있다. 새 데이터를 사용하여 프로덕션 단계에서 모델을 재학습시키는 프로세스를 자동화하려면 파이프라인 트리거 및 메타데이터 관리뿐만 아니라 자동화된 데이터 및 모델 검증 단계를 파이프라인에 도입해야 한다. The Guiding Principles of MLOps - collaborative - reproducible - continuous - tested & monitored 일반적인 머신러닝 파이프라인 이번에 기회가 되어 전체적인 머신러닝 파이프라인을 구축하고 자동화 시키는 시.. 2021. 6. 29.
반응형