Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 일론 머스크
- PYTHON
- javascript
- 아두이노
- LLM
- 트랜스포머
- 확산 모델
- LORA
- 서보모터
- ubuntu
- 메타
- 오픈AI
- AI
- 시간적 일관성
- 우분투
- 인공지능
- 뉴럴링크
- 가상환경
- 티스토리챌린지
- 멀티모달
- ChatGPT
- ControlNet
- tts
- TRANSFORMER
- 오블완
- 딥마인드
- 생성형 AI
- 이미지 편집
- AI 기술
- OpenAI
Archives
- Today
- Total
AI 탐구노트
Fish-Speech : 다국어를 지원하는 TTS 모델 본문
FishAudio라는 업체에서 개발한 다국어를 지원하는 텍스트 음성변환(TTS) 모델입니다.
최신 버전인 Fish Speech V1.4의 경우, 다국어로 구성된 70만 시간 분량의 오디오 데이터를 사용해 훈련되었으며 초저지연 실시간 음성합성(TTS)과 음성 복제 기능을 제공합니다. 70만 시간 가운데 30만 시간이 영어, 중국어라고 하며 한국어는 2만 시간 정도가 포함되어 있다고 합니다.
미세조정에는 8GB, 추론에는 4GB 수준의 VRAM만 있으면 된다고 하는데, 4GB면 사양이 좀 낮은 GPU를 가지고도 음성을 만들고 테스트 하는데는 전혀 문제가 없다는 얘기가 됩니다. (CUDA를 사용해 추론 속도를 높이는 경우라고 생각하면 될 듯...)
데모로 공개되어 있는 FishAudio 사이트 에는 이미 만들어진 다양한 사람들의 복제 목소리 모델이 있습니다. 흠... 미국 대통령 선거 기간이라 그런지 역시 트럼프의 목소리가 사용된 경우의 수가 월등히 많네요... 어찌됐건 이를 활용해서 내가 입력하는 텍스트로 음성파일을 생성해 볼 수도 있습니다. 무료는 생성 가능한 텍스트 수에 제한이 있는 것 같긴 하지만요... 그게 싫다면 직접 로컬에 설치하고 참조 음성을 이용해 생성하는 방법을 선택하면 됩니다. 이 방식도 Github 상에 설명으로 나와 있으니 다른 글을 통해 소개해 보도록 하겠습니다.
정리해 보면 Fish-Speech의 주요 특징은 다음과 같습니다.
- 다국어 지원 : 8개 언어 지원 (영어/중국어/독일어/일본어/프랑스어/스페인어/한국어/아랍어)
- 대규모 음성 데이터 학습 : 70만 시간 가량의 음성 데이터
- 빠른 추론 지원 : 초당 20개 이상의 토큰을 처리하며 빠른 콘텐츠 생성 지원
- 고품질 출력 : 적절한 억양, 리듬의 정확하고 자연스런 음성 생성 지
- 라이선스 : CC-BY-NC-SA-4.0 로 공개 (상업적으로는 사용 불가)
'AI 기술' 카테고리의 다른 글
Sapiens : 4가지 비전 작업을 지원하는 시각 모델 (0) | 2024.09.27 |
---|---|
APGCC : 보조지점 안내 기반의 군중 카운팅 (2) | 2024.09.24 |
Seed-Music : 정교한 스타일 적용이 가능한 음악 생성 시스템 (0) | 2024.09.21 |
DrawingSpinUp : 스케치 to 3D 애니메이션 생성 시스템 (1) | 2024.09.17 |
GameGen-O : 오픈월드 비디오 게임 생성 모델 (1) | 2024.09.16 |