일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 오블완
- 우분투
- 아두이노
- 인공지능
- 생성형 AI
- 오픈AI
- ChatGPT
- 티스토리챌린지
- 메타
- 텍스트-이미지 생성
- AI
- 트랜스포머
- LLM
- 다국어 지원
- OpenCV
- ubuntu
- PYTHON
- 오픈소스
- 가상환경
- 일론 머스크
- AI 기술
- 시간적 일관성
- 서보모터
- tts
- TRANSFORMER
- 이미지 생성
- OpenAI
- LORA
- 딥러닝
- 확산 모델
- Today
- Total
AI 탐구노트
Kokoro-82M: 컴팩트하면서 강력한 TTS 솔루션 본문
텍스트-음성 변환(TTS)은 현대 인공지능 기술의 핵심적인 응용 중 하나로, 음성 인터페이스, 오디오북, 팟캐스트 제작 등 다양한 영역에서 중요한 역할을 담당하고 있습니다. 이 분야에서 새롭게 등장한 Kokoro-82M은 8,200만 개의 매개변수만으로 대형 모델을 능가하는 성능을 제공하며, 컴팩트한 크기와 효율성을 자랑합니다. 이러한 특징은 TTS 기술의 상용화를 위한 게임 체인저로 주목받고 있습니다.
특히 Kokoro-82M은 StyleTTS 2와 ISTFTNet 아키텍처를 기반으로 하여 기존 모델의 복잡한 디퓨전 메커니즘 없이 효율성을 극대화한 디코더 중심의 설계를 채택했습니다. 현 시점의 최신 버전인 0.23에서는 영어, 프랑스어, 일본어, 한국어, 중국어가 지원되고 있습니다. 전세계 지원 언어 5개 가운데 들어 있다니...
기존 TTS 모델들의 제약사항
기존 TTS 모델은 대규모 매개변수와 훈련 데이터를 요구하며, 고성능을 유지하기 위해 높은 하드웨어 자원을 필요로 했습니다. 이로 인해 상용화 및 실시간 응용 사례에서의 활용이 제한되었으며, 오픈소스 옵션이 부족하여 상업적 용도로 사용 가능한 선택지가 거의 없었습니다. 또한, 일부 모델은 라이선스 문제로 인해 제한적으로 사용될 수 있었습니다.
Kororo-82M의 접근 방향
Kokoro-82M은 기존의 대형 TTS 모델과는 달리, 효율성과 성능 간 균형에 중점을 둔 접근 방식을 채택했습니다.
- 아키텍처 측면 : 이 모델은 StyleTTS 2와 ISTFTNet을 바탕으로 설계되었으며, 디퓨전 메커니즘이나 인코더를 배제하여 디코더에만 초점을 맞춘 단순하고 효율적인 구조를 구현했습니다.
- 컴팩트 모델링 : 매개변수 수를 8,200만 개로 줄이면서도, 기존 대형 모델과 동등하거나 더 나은 음성 품질을 제공합니다.
Kororo-82M의 특징
1) StyleTTS 2 기반
StyleTTS 2는 TTS 분야에서 감정과 문맥을 포함한 음성 스타일을 효과적으로 표현하는 데 최적화된 아키텍처입니다. Kokoro-82M은 이를 활용하여 자연스러운 음성과 다양한 음성 톤을 생성합니다.
2) ISTFTNet
ISTFTNet은 Inverse Short-Time Fourier Transform을 활용한 딥러닝 기반의 신경망으로 신호 처리를 최적화하여 음질을 개선하는 데 사용됩니다. 기존 방식들 대비 좀 더 간단하고 고효율적인 구조를 가지고 있어 빠른 디코딩을 가능하게 하고 실시간 응용에서도 우수한 성능을 제공합니다.
3) 다국어 및 음성 팩 지원
Kokoro-82M은 미국 영어와 영국 영어를 비롯해 프랑스어, 일본어, 한국어, 중국어 등 다양한 언어를 지원합니다. 또한, 다수 개의 독특한 음성 팩을 제공하여 남성과 여성 음성을 포함한 다양한 선택지를 제공합니다. 허깅페이스 데모에서 한국어 음성에서 선택할 수 있는 음성팩이 엄청 많던데... 이는 버전이 올라갈수록 지원되는 언어, 음성팩은 계속 늘 지 않겠어요?
4) ONNX 호환성
ONNX(오픈 신경망 교환)는 모델을 GPU 의존성을 줄이고 경량화된 배포를 가능하게 합니다. 이를 통해 실시간 웹 애플리케이션 및 서버 환경에서 활용도가 높아질 것으로 생각됩니다. 라즈베리파이 같은 임베디드 보드에서도 동작 가능할 것 같은데 실시간 수준의 지원이 되는지 아직은 테스트 결과가 없네요.
5) Hugging Face 리더보드 성과
Kokoro-82M은 Hugging Face TTS 아레나에서 상위권을 차지하며, 상업적 사용이 가능한 오픈소스 모델로 주목받고 있습니다. 현재 Kororo-82M은 'Local Elevenlabs'라는 별명을 가질 정도로 사람들의 관심을 많이 받고 있습니다. ^^
Kororo-82M의 제약사항
현재 공개된 버전에서 한국어, 일본어, 중국어 문장 내에 포함된 영어를 제대로 처리하지 못하는 제약사항이 있습니다. 그래서 변환 전에는 먼저 영어로 된 부분은 각자의 언어 문장으로 바꿔서 음성 변환을 하도록 해야 합니다. 그리고, 0.23버전의 경우, 맞춤 발음, 긴 형식, 음성 믹서 등을 지원하지 않아서 이를 하고자 하면 0.19버전을 이용해야 한답니다.
참고자료
- 코드) Kokoro-FastAPI (Github)
- Kokoro-82M 코드를 이용하고 있으며 도커를 이용해 사용할 수 있도록 API 서버 형태로 개발됨
- FastAPI를 이용하고 Gradio GUI를 제공하며, OpenAI Speech Endpoint와 호환되는 형태로 만들어 짐
- onnx 기반 GPU, CPU를 지원
- 데모) Kokoro-TTS (허깅페이스)
정리하며
Kokoro-82M은 효율성과 성능을 모두 갖춘 차세대 TTS 모델로, 상업적 활용 가능성과 오픈소스 라이선스를 바탕으로 TTS 기술의 접근성을 대폭 확대했습니다. 실시간 응용과 다양한 언어 지원이 가능한 점은 특히 주목할 만합니다. 버전업이 계속 되면서 다양한 언어를 추가로 지원하고 특히 한국어 지원에서 약간은 어색한 연결 부분 등이 개선되면 참 좋을 것 같습니다.
개인적으로 저는 이 모델을 자주 이용할 것 같습니다. 예전에 테스트 했었던 Fish-Speech하고 유사한 품질을 보여주면서도 엄청 가볍고 빠르기도 해서 간단한 개인 서비스에는 정말 활용하기 좋은 도구 같거든요. :-)
5. Q&A
Q1. Kokoro-82M의 주요 강점은 무엇인가요?
A. Kokoro-82M은 8,200만 개의 매개변수로 구성된 컴팩트한 모델임에도 불구하고 대형 모델에 필적하는 음성 품질을 제공합니다. 또한 Apache 2.0 라이선스로 상업적 사용이 가능하며, 다국어와 다양한 음성 옵션을 지원합니다.
Q2. Kokoro-82M은 실시간 응용에 적합한가요?
A. 네, ISTFTNet과 ONNX 호환성을 통해 실시간 웹 애플리케이션 및 클라우드 환경에서 효율적으로 사용할 수 있습니다.
Q3. Kokoro-82M의 감정 표현은 어떤가요?
A. 기본 설정에서는 감정 표현이 다소 제한적일 수 있지만, 프로그래밍적으로 감정을 조정하면 더 나은 결과를 얻을 수 있습니다.
'AI 기술' 카테고리의 다른 글
SPAR3D : 단일 이미지에서 3D 객체를 안정적으로 복원하는 새로운 방법론 (0) | 2025.01.14 |
---|---|
Sa2VA: 이미지와 비디오를 똑똑하게 이해하는 새로운 인공지능 모델 (0) | 2025.01.14 |
NeuralSVG - 텍스트에서 벡터 그래픽 생성으로의 새로운 접근 (0) | 2025.01.12 |
TransPixar : 투명한 비디오 생성의 새로운 시대 (0) | 2025.01.12 |
SWITTI: 스케일-와이즈 트랜스포머를 활용한 텍스트-이미지 생성 (0) | 2025.01.11 |