AI 탐구노트

ZONOS : 다국어, 감정표현도 잘 되는 오픈소스 TTS 모델 본문

AI 기술

ZONOS : 다국어, 감정표현도 잘 되는 오픈소스 TTS 모델

42morrow 2025. 2. 18. 13:54

 

최근 인공지능 기술의 발전으로 텍스트를 자연스러운 음성으로 변환하는 TTS(Text-to-Speech) 기술이 주목받고 있습니다. 특히, 개인화된 음성 생성과 감정 표현이 가능한 모델에 대한 수요가 증가하고 있습니다. 이러한 흐름 속에서, 오픈 소스 기반의 ZONOS TTS 모델이 등장하여 큰 관심을 받고 있습니다.

 

ZONOS는 20만 시간 이상의 다국어 음성 데이터를 학습하여 다양한 언어와 감정을 표현할 수 있는 TTS 모델입니다. 사용자는 자신의 음성을 복제하거나, 텍스트에 감정을 부여하여 더욱 생동감 있는 음성을 생성할 수 있습니다. 이러한 기능은 개인화된 음성 비서, 오디오북 제작, 게임 캐릭터 음성 등 다양한 분야에서 활용될 수 있습니다.

 


ZONOS TTS의 특징

1.오픈 소스 기반 텍스트 음성 변환(TTS) 모델

예전에 소개한 KOKORO 등과 같이 오픈소스 모델입니다. Apache 2.0 라이선스로 공개되어 이를 활용한 응용 서비스를 만드는데도 유리합니다. 약 20만 시간 분량의 음성 데이터로 학습되었다고 합니다. 

 

2.제로샷  TTS 및 음성 복제 

ZONOS는 10~30초 분량의 음성 샘플만으로도 특정 화자의 음색을 학습하여 유사한 음성을 생성할 수 있습니다. 이를 통해 사용자는 자신의 목소리를 복제하거나 원하는 음색을 구현할 수 있습니다. 1~2초의 샘플로 음성을 복제할 수 있다고 했던 모델들도 있었지만 개인적으로 테스트해 봤을 때는 결과물이 그리 훌륭해 보이진 않았었습니다. 그래서인지 좀 더 풍부한 정보를 이용하는 편이 더 나을 것 같긴 합니다. (아직 테스트를 못 해 봐서...)

 

3.다국어 지원

ZONOS는 영어, 일본어, 중국어, 프랑스어, 독일어 등 여러 언어를 자연스러운 발음으로 지원합니다. 이를 통해 다양한 언어의 콘텐츠 제작이 가능하며, 글로벌 사용자들에게도 유용합니다. 저는 역시 한국어 지원이 잘 되는지가 궁금했는데 다행히도 괜찮은 품질을 제공하는 것 같습니다. 

 

4. 고급 제어 기능

사용자는 말하는 속도, 음높이, 오디오 품질, 감정 표현 등을 세밀하게 조절할 수 있습니다. 예를 들어, 행복, 슬픔, 분노 등의 감정을 음성에 반영하여 더욱 생동감 있는 음성을 생성할 수 있습니다. 특히 텍스트 입력에 오디오 프리픽스를 추가하여 화자의 특성을 강화하고, 속삭임과 같은 특별한 음성 효과를 구현할 수 있고 지역별 억양 적용도 가능하다고 합니다. 

 

5. 로컬 환경 지원

6GB 이상의 VRAM을 갖춘 로컬 환경에서 손쉽게 구현해서 사용할 수 있습니다. 공개된 지 얼마 되지도 않았는데 ComfyUI 등에서 사용할 수 있는 방법 등도 소개되고 있을 정도로 사람들(저를 포함해서^^;)의 관심이 높습니다. 

 

 

그림 : Zonos-v0.1 모델 아키텍처

 


참고자료

 

  • ZONOS TTS 플레이그라운드 (링크)
  • ZONOS TTS github repository (링크)
  • ZONOS TTS ComfyUI (링크)
  • 영상) Endplan AI 채널의 한국어 지원되는 오픈소스 TTS 비교 (링크)