AI 탐구노트

LitServe : FastAPI보다 훨씬 빠른 모델 서빙엔진 본문

AI 기술

LitServe : FastAPI보다 훨씬 빠른 모델 서빙엔진

42morrow 2024. 9. 9. 13:12
Lightning AI가 공개한 AI 모델 서빙을 위한 고속의 유연한 엔진

 

LitServe는 AI 모델을 웹 서비스로 배포하는 과정을 간소화하고, 기존 방식 대비 최대 50% 더 빠른 배포 속도를 제공하는 도구입니다.

 

기존의 AI 모델 배포 도구들은 복잡한 설정과 높은 기술적 요구사항이 있어, 인프라 구축과 확장성에 어려움을 겪으며 배포 시간이 오래 걸리기도 하고 동시 요청 처리나 성능 최적화가 어렵고 GPU 리소스를 효과적으로 관리하거나 확장하는데 한계가 있었습니다. 

 

LitServe는 FastAPI 기반의 AI 모델 서빙 엔진으로, 배치 처리와 GPU 자동 확장 기능을 제공해 기존 문제를 해결합니다. 간단한 설정과 사용자 친화적인 인터페이스로, 초보자도 쉽게 모델을 배포할 수 있도록 도와주며, PyTorch Lightning과의 통합을 통해 기존 워크플로우에 쉽게 적용할 수 있게 해 주는거죠.

 

 

사진 : FastAPI와 LitServe 간의 처리 속도 비교

 

 

LitServe의 기술적인 특징은 다음과 같습니다. 

  • 빠른 배포 : 기존 방식 대비 최소 2배 모델 서빙 지원
  • 유연성: RESTful API로 모델을 배포해 실시간 추론 지원
  • 배치 처리 및 스트리밍 지원: 더 많은 동시 요청을 처리하고 성능을 극대화함
  • GPU 자동 스케일링: 동적 리소스 관리로 성능 최적화 지원 (다중 인스턴스에서 수평적으로 확장 가능, 배치 처리 및 GPU 자동 확장 지원) 
  • 간단한 설정: pip으로 쉽게 설치하고 몇 줄의 코드로 배포 가능
  • 다양한 호스팅 옵션: 자체 호스팅과 관리형 호스팅을 지원
  • 다양한 모델 지원: NLP, 멀티모달 모델, 오디오, 비전 등 다양한 AI 모델에 적용 가능

 

AI Model Serving을 하는 다른 솔루션으로 Tensorflow Serving, TorchServe 등이 있지만, 이들은 각자의 AI framework에서 생성한 것을 서빙하는데 목적을 두고 있는데 반해 LitServe는 프레임워크에 구애받지 않는다는 차이점이 있습니다. TorchServe 대비 조금 더 높은 성능을 보여주기도 하죠.  회사에서 고성능 LLM에 특화해서 내놓은 LitGPT라는 솔루션도 있습니다. 

 

참고) 관련사이트, 코드