ZONOS : 다국어, 감정표현도 잘 되는 오픈소스 TTS 모델

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

ZONOS : 다국어, 감정표현도 잘 되는 오픈소스 TTS 모델 본문

AI 기술

ZONOS : 다국어, 감정표현도 잘 되는 오픈소스 TTS 모델

42morrow 2025. 2. 18. 13:54

최근 인공지능 기술의 발전으로 텍스트를 자연스러운 음성으로 변환하는 TTS(Text-to-Speech) 기술이 주목받고 있습니다. 특히, 개인화된 음성 생성과 감정 표현이 가능한 모델에 대한 수요가 증가하고 있습니다. 이러한 흐름 속에서, 오픈 소스 기반의 ZONOS TTS 모델이 등장하여 큰 관심을 받고 있습니다.

ZONOS는 20만 시간 이상의 다국어 음성 데이터를 학습하여 다양한 언어와 감정을 표현할 수 있는 TTS 모델입니다. 사용자는 자신의 음성을 복제하거나, 텍스트에 감정을 부여하여 더욱 생동감 있는 음성을 생성할 수 있습니다. 이러한 기능은 개인화된 음성 비서, 오디오북 제작, 게임 캐릭터 음성 등 다양한 분야에서 활용될 수 있습니다.

ZONOS TTS의 특징

1.오픈 소스 기반 텍스트 음성 변환(TTS) 모델

예전에 소개한 KOKORO 등과 같이 오픈소스 모델입니다. Apache 2.0 라이선스로 공개되어 이를 활용한 응용 서비스를 만드는데도 유리합니다. 약 20만 시간 분량의 음성 데이터로 학습되었다고 합니다.

2.제로샷 TTS 및 음성 복제

ZONOS는 10~30초 분량의 음성 샘플만으로도 특정 화자의 음색을 학습하여 유사한 음성을 생성할 수 있습니다. 이를 통해 사용자는 자신의 목소리를 복제하거나 원하는 음색을 구현할 수 있습니다. 1~2초의 샘플로 음성을 복제할 수 있다고 했던 모델들도 있었지만 개인적으로 테스트해 봤을 때는 결과물이 그리 훌륭해 보이진 않았었습니다. 그래서인지 좀 더 풍부한 정보를 이용하는 편이 더 나을 것 같긴 합니다. (아직 테스트를 못 해 봐서...)

3.다국어 지원

ZONOS는 영어, 일본어, 중국어, 프랑스어, 독일어 등 여러 언어를 자연스러운 발음으로 지원합니다. 이를 통해 다양한 언어의 콘텐츠 제작이 가능하며, 글로벌 사용자들에게도 유용합니다. 저는 역시 한국어 지원이 잘 되는지가 궁금했는데 다행히도 괜찮은 품질을 제공하는 것 같습니다.

4. 고급 제어 기능

사용자는 말하는 속도, 음높이, 오디오 품질, 감정 표현 등을 세밀하게 조절할 수 있습니다. 예를 들어, 행복, 슬픔, 분노 등의 감정을 음성에 반영하여 더욱 생동감 있는 음성을 생성할 수 있습니다. 특히 텍스트 입력에 오디오 프리픽스를 추가하여 화자의 특성을 강화하고, 속삭임과 같은 특별한 음성 효과를 구현할 수 있고 지역별 억양 적용도 가능하다고 합니다.

5. 로컬 환경 지원

6GB 이상의 VRAM을 갖춘 로컬 환경에서 손쉽게 구현해서 사용할 수 있습니다. 공개된 지 얼마 되지도 않았는데 ComfyUI 등에서 사용할 수 있는 방법 등도 소개되고 있을 정도로 사람들(저를 포함해서^^;)의 관심이 높습니다.

참고자료

ZONOS TTS 플레이그라운드 (링크)
ZONOS TTS github repository (링크)
ZONOS TTS ComfyUI (링크)
영상) Endplan AI 채널의 한국어 지원되는 오픈소스 TTS 비교 (링크)

'AI 기술' 카테고리의 다른 글

Anthropic의 새로운 하이브리드 추론 모델 : Claude 3.7 Sonnet (0)	2025.02.26
Marker : PDF와 이미지 파일을 다양한 포맷으로 변환하는 도구 (0)	2025.02.22
Inferring from Logits : 디코딩 없는 생성 모델 후보 선택,최적의 접근법 탐색 (1)	2025.02.10
SVFR : 통합된 비디오 얼굴 복원 프레임워크 (0)	2025.02.08
OmniHuman : 자연스러운 움직임을 만들어내는 애니메이션 생성 모델 (1)	2025.02.06

'AI 기술' Related Articles

AI 탐구노트

ZONOS : 다국어, 감정표현도 잘 되는 오픈소스 TTS 모델 본문

ZONOS : 다국어, 감정표현도 잘 되는 오픈소스 TTS 모델

ZONOS TTS의 특징

1.오픈 소스 기반 텍스트 음성 변환(TTS) 모델

2.제로샷 TTS 및 음성 복제

3.다국어 지원

4. 고급 제어 기능

5. 로컬 환경 지원

참고자료

'AI 기술' 카테고리의 다른 글

티스토리툴바