AI 탐구노트

OuteTTS v0.2 - 500M : 다국어를 지원하는 고급 텍스트-음성 모델 본문

AI 기술

OuteTTS v0.2 - 500M : 다국어를 지원하는 고급 텍스트-음성 모델

42morrow 2024. 12. 3. 20:30

 

1.OuteTTS란?

OuteTTS는 다국어를 지원하는 텍스트-음성변환(TTS) 모델입니다. 현재 v0.2 버전이 출시되었는데 v0.1이 소개된 지 채 2주 정도 밖에 지나지 않은 것 같은데 발전 속도가 상당히 빠른 편입니다. 제일 주목되는 부분은 음성복제, 다국어지원, 엣지 지원 정도가 될 것 같네요. 

 

2.OuteTTS v0.2 - 500M

이번에 새롭게 공개된 QuteTTS 버전으로 세부 특징은 다음과 같습니다. 

  • 다국어 지원 : 영어, 중국어, 한국어 및 일본어
  • llama.cpp를 사용한 크로스 플랫폼 추론
  • 제로샷 음성 복제
  • 향상된 정확도 : 광범위한 데이터셋 학습을 통해 자연스러운 음성 합성
  • 개선된 음성 복제 기능
  • 확장된 어휘 : 50억 개의 오디오 토큰으로 훈련됨
  • Qwen 2.5 0.5B LLM 백본
  • 적은 리소스 사용 : VRAM 3GB만 사용 (RTX A6000 GPU 기준)
  • 확장성 : 모바일 및 엣지 디바이스에서도 애플리케이션 개발 가능
  • 빠른 설치 및 간단한 설정 : HuggingFace에서 모델 다운로드 지원

 

3.실행 테스트

아무래도 CPU만으로도 구동 가능할 정도이고 한국어 지원이 된다고 했으니 그냥 넘어가기 보다는 활용을 염두에 두고 실행 테스트를 한번 진행해 봐야겠다 싶었습니다. 그래서, 간단하게 테스트를 진행해 보고자 합니다. 

 

3.1.환경 구성

Pypi를 지원하므로 설치 자체는 단순합니다. 다만, 사전 요구사항으로 torch, torch-audio 등등이 있으니 해당하는 것을 설치해 줍니다. 

# gradio space 옮기기
$ git clone https://huggingface.co/OuteAI/OuteTTS-0.2-500M
$ cd OuteTTS-0.2-500M

# 필요 패키지 설치 
$ pip install outetts gradio spaces

# gradio 코드 다운로드
$ wget https://huggingface.co/spaces/OuteAI/OuteTTS-0.2-500M-Demo/raw/main/app.py

 

3.2.실행 및 결과 확인

다운받은 graio app 코드를 실행 합니다.

$ python app.py

 

 

실행하면 graio 앱이 아래 그림과 같이 구동됩니다. 수정할 수 있는 것은 언어, 화자(남,녀 가운데 선택지가 복수로 있음), 생성 문구, Tempoerature, Repetition Penalty 등입니다. 복제를 위해서는 그 아래에 레퍼런스할 음석 파일을 이용하면 됩니다. 

그림 : 구동되는 gradio 앱, 텍스트는 기사의 내용 중 일부를 발췌함

 

한국어로 해 본 바로는 짧은 일상 대화는 큰 무리없이 잘 되는 것 같았습니다. 하지만, 문장의 길이가 길어지거나 용어가 일상 용어를 벗어나는 경우, 생성된 결과는 많이 실망스러웠습니다. OuteTTS-0.2-500M 과 Fish-Speech 를 이용해 생성된 결과물인데 한번 비교해 보시기 바랍니다. 

 

OuteTTS-0.2-500M 

outetts-0.2-500m_output.wav
1.08MB



Fish-Speech

fish-speech_output.wav
2.03MB

 

둘 다 동일한 기사 내용 일부를 가지고 테스트를 진행한 것인데, Fish-Speech의 경우가 훨씬 더 제대로 문장을 읽어내는 모습입니다. 아무래도 둘은 모델 사이즈나 한국어 데이터 학습에 쓰은 데이터의 절대량이나 학습시간이 적기 때문은 아닐까 추정해 볼 뿐입니다. 

 

 

4.결론 

OuteTTS v0.2 - 500M 모델의 경우, 0.2라는 버전 번호와 2주만에 업그레이드가 진행되는 등을 보면, 모델의 성은은 개선의 여지가 상당히 많을 것으로 같아 대략 v1.0 정도되면 정말 쓸만한 것 하나 나오지 않을까 기대해 봅니다. 현재의 방향처럼 On-Device나 엣지 등과 같이 저사양의 장비에서 동작되면서도 성능 좋은 한국어 TTS 모델이 나오면 홈네트워킹이나 IoT, 스마트 물류나 보안 등 다양한 영역에 활용될 수 있겠죠?

 

 

5.참고자료

  • 코드 (Github)

 

 

GitHub - edwko/OuteTTS: Interface for OuteTTS models.

Interface for OuteTTS models. Contribute to edwko/OuteTTS development by creating an account on GitHub.

github.com

  • 모델 카드

 

 

OuteAI/OuteTTS-0.2-500M · Hugging Face

Model Description OuteTTS-0.2-500M is our improved successor to the v0.1 release. The model maintains the same approach of using audio prompts without architectural changes to the foundation model itself. Built upon the Qwen-2.5-0.5B, this version was trai

huggingface.co

  • 데모 (HuggingFace)

 

 

OuteTTS 0.2 500M Demo - a Hugging Face Space by OuteAI

 

huggingface.co