Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
Tags
- 자연어 처리
- 휴머노이드 로봇
- LLM
- 강화학습
- 딥러닝
- XAI
- 오픈AI
- 트랜스포머
- 멀티모달
- 인공지능
- 메타
- 이미지 생성
- 오블완
- 오픈소스
- 다국어 지원
- PYTHON
- 실시간 렌더링
- 우분투
- 확산 모델
- ChatGPT
- OpenAI
- 감정 표현
- 생성형AI
- 일론 머스크
- 티스토리챌린지
- Stable Diffusion
- tts
- 강화 학습
- AI 기술
- AI
Archives
- Today
- Total
AI 탐구노트
Dia-1.6B TTS : 한국 학부생 실력파 2명이 만든 1.6B TTS 모델 본문
Dia-1.6B는 Nari Labs에서 개발한 16억 파라미터 규모의 텍스트-대화(Text-to-Speech, TTS) 모델입니다. Nari 라는 프로젝트 이름을 사용하는 한국 개발자 분들이 만든 모델입니다. X에 올라온 글을 보면 학부생 2명 (한명은 군 복무 중)이 지원금 전혀 없이 개발했다고 합니다. 참고로 'Nari'는 개나리에서 따 온 이름입니다. (사이트의 로고와 꽃잎의 장수를 보면 감 잡히시죠?)
1.모델 특징
Dia-1.6B TTS 모델의 주요 특징은 다음과 같습니다.
- 현실적인 대화 생성 : 텍스트 스크립트를 기반으로 다중 캐릭터 대화를 단일 패스로 생성 -> 자연스럽고 빠른 음성 출력 제공 (기존 TTS 모델처럼 개별 발화를 합치는 방식이 아니라 전체 대화를 한 번에 처리)
- 감정 및 톤 제어 : 오디오 프롬프트를 통해 출력 음성의 감정과 톤을 조절. 특정 음성 스타일이나 감정을 지정해 대화의 분위기를 커스터마이징 가능
- 비언어적 표현 지원 : 웃음, 기침, 목 쉼(목을 가다듬는 소리) 등 비언어적 소리를 생성 가능
- 영어 생성 지원 : 현재는 영어 대화만 지원. 다른 언어 지원은 계획 중 (정말로 혹시나해서 한글로 해 봤지만 T^T)
- 오픈 소스 및 접근성 : 사전 학습된 모델 가중치와 추론 코드를 Hugging Face에서 제공. GitHub 통해 소스 코드를 공개. Apache 2.0 라이선스 채택
- Gradio UI 제공 : 대화 생성 및 오디오 출력 지원
- 하드웨어 성능 : GPU(현재 PyTorch 2.0+, CUDA 12.6 기반)에서 최적화됨. CPU 지원은 향후 추가 예정
2.사용법
Dia-1.6B는 GitHub 리포지토리와 Gradio UI를 통해 쉽게 사용할 수 있으며, 다음과 같은 절차로 설정 및 실행이 가능합니다.
1️⃣ 설치, 설정 및 Gradio UI 이용
- 아래 과정을 거쳐 Gradio 앱 실행 후 브라우저에서 http://127.0.0.1:7860에 접속
# 코드 다운로드
$ git clone https://github.com/nari-labs/dia.git
$ cd dia
# 가상 환경 생성 (conda 사용해도 무방)
$ python -m venv .venv
$ source .venv/bin/activate
# 의존성 설치 및 실행
$ pip install uv
$ uv run app.py
2️⃣ Python 코드 이용 시
- [S1], [S2] 태그를 사용해 다중 캐릭터 대화를 지정하며, 각 캐릭터는 자동으로 다른 음성을 할당할 수 있습니다.
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text = "[S1] Hello, how are you? [S2] I'm good, thanks for asking!"
output = model.generate(text)
sf.write("output.wav", output, 44100)
3.하드웨어 요구사항
- GPU: NVIDIA GPU(CUDA 지원) 권장, 최소 10GB VRAM 필요 -> 양자화 버전은 계획 중
- RAM: 최소 16GB, 모델 로딩 시 더 높은 메모리 권장
- CPU: 현재 GPU 최적화, CPU 지원 예정
4.활용 가능 사례 예시
- 콘텐츠 제작: 팟캐스트, 애니메이션, 단편 비디오의 대화 음성 생성
- 교육 및 훈련: 언어 학습용 다중 역할 대화 또는 역할극 훈련 오디오 생성
- 게임 개발: NPC 대화 음성을 동적으로 생성하여 캐릭터별 감정과 톤 반영
Dia-1.6B는 대화형 음성 합성의 새로운 가능성을 보여준 모델입니다. 다양한 분야에서의 활용이 기대됩니다. 동시에 정체되어 있는 국내 오픈소스 TTS 분야에 새로운 활력을 불러 넣어줬으면 하는 바램도 있습니다. 파이팅하시길... 그런데... 아무런 지원도 받지 못하고 있는 두 젊은 친구들에게 너무 큰 짐을 지우는 걸까요? 미안한 생각도 듭니다. -_-;
참고자료
'AI 기술' 카테고리의 다른 글
Infinite Retrieval: 무한 길이 텍스트를 처리하는 새로운 LLM 방법 (0) | 2025.04.29 |
---|---|
MAGI-1: 자기회귀 방식의 확장 가능한 비디오 생성 모델 (0) | 2025.04.25 |
EDGS : 점을 뿌리는 새로운 방식으로 더 빠르게, 더 정밀하게 3D 복원하기 (1) | 2025.04.23 |
작은 디테일까지 생생하게! 주파수 인식 NeRF 모델 FA-NeRF (0) | 2025.04.19 |
StarVector : 텍스트와 이미지를 SVG 코드로 변환하는 다재다능한 멀티모달 모델 (0) | 2025.04.18 |