AI 탐구노트

Voice-Pro : 음성 관련 통합 서비스를 제공하는 오픈소스 웹 솔루션 본문

AI 기술

Voice-Pro : 음성 관련 통합 서비스를 제공하는 오픈소스 웹 솔루션

42morrow 2024. 10. 7. 21:32

 

 

Voice-Pro는 AI 기반 음성 인식, 번역, 자막 생성, 보컬 제거 등을 통합 제공하는 그라디오 웹 UI 솔루션입니다. 

 

 

Voice-Pro가 제공하는 주요 기능은 다음과 같습니다. 

 

  • YouTube 동영상 다운로드 및 오디오 변환
  • 보컬 제거 및 잡음 제거
  • 다국어 자막 생성 및 번역 (100개 이상의 언어 지원)
  • 음성 합성(TTS) 기능으로 다국어 음성 생성
  • 실시간 음성 인식 및 번역
  • 배치 처리를 통해 대용량 파일 처리
  • 사용자 맞춤형 TTS 속도, 음량, 음정 조절
  • MIT 라이선스 

 

 

위에 소개한 기능들을 보면 오디오, 특히 음성 오디오 처리에서 꼭 필요하다 싶은 것들을 다 나열하고 있는 것 같습니다. 어떻게 이런 기능들을 다 구현했을까 의아했는데 뒤에 설명된 내용을 보고 고개를 끄덕일 수 있었습니다. 이미 있는 바퀴를 새로 개발할 필요가 없듯이 공개되어 있는 많은 오픈소스 솔루션들을 활용할 수 있도록 하는 방식으로 접근한 것이죠. 아주 영리하고 잘 선택한 방법 같습니다.

 

 

이 솔루션에 적용된 기술 요소들은 다음과 같은 것들이 있습니다. 

 

  • OpenAI Whisper: 음성 인식
  • Meta's Demucs : 오디오 소스 분리
  • UVR5의 MDX-Net : 보컬 제거
  • 오픈소스 Translator 
  • 오픈소스 TTS
  • ffmpeg: 다양한 포맷 지원 및 변환
  • Gradio: 웹 기반 UI 제공
  • CUDA: GPU 가속을 통한 빠른 처리

 

 

개인 PC에서 손쉽게 사용할 수 있도록 개발되었는데, 그러다보니 Windows 환경만 지원합니다. T^T

 

 

후기

Voice-Pro는 한국 기업 에이버스에서 개발한 솔루션인데, 이 회사의 판매 전략은 좀 독특하죠. 다른 곳들은 구독 형태로 분당, 시간당으로 과금을 하는 반면, 이곳은 1회성 구매 형태로 서비스를 제공합니다. 그도 그럴만한 것이 자체 개발한 AI 대신 글로벌 빅테크의 AI 기술을 이용하는 방식으로 제품이 구성되어 있습니다. 흠... 잘못하면 오프소스 솔루션 소개가 아니라 상용 서비스 제품 홍보라는 오해가 생길 수도 있겠습니다. :-|

 

 

참고) 코드(깃헙), 에이버스 홈페이지