Fish-Speech : 다국어를 지원하는 TTS 모델

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

Fish-Speech : 다국어를 지원하는 TTS 모델 본문

AI 기술

Fish-Speech : 다국어를 지원하는 TTS 모델

42morrow 2024. 9. 23. 10:33

FishAudio라는 업체에서 개발한 다국어를 지원하는 텍스트 음성변환(TTS) 모델입니다.

최신 버전인 Fish Speech V1.4의 경우, 다국어로 구성된 70만 시간 분량의 오디오 데이터를 사용해 훈련되었으며 초저지연 실시간 음성합성(TTS)과 음성 복제 기능을 제공합니다. 70만 시간 가운데 30만 시간이 영어, 중국어라고 하며 한국어는 2만 시간 정도가 포함되어 있다고 합니다.

미세조정에는 8GB, 추론에는 4GB 수준의 VRAM만 있으면 된다고 하는데, 4GB면 사양이 좀 낮은 GPU를 가지고도 음성을 만들고 테스트 하는데는 전혀 문제가 없다는 얘기가 됩니다. (CUDA를 사용해 추론 속도를 높이는 경우라고 생각하면 될 듯...)

데모로 공개되어 있는 FishAudio 사이트 에는 이미 만들어진 다양한 사람들의 복제 목소리 모델이 있습니다. 흠... 미국 대통령 선거 기간이라 그런지 역시 트럼프의 목소리가 사용된 경우의 수가 월등히 많네요... 어찌됐건 이를 활용해서 내가 입력하는 텍스트로 음성파일을 생성해 볼 수도 있습니다. 무료는 생성 가능한 텍스트 수에 제한이 있는 것 같긴 하지만요... 그게 싫다면 직접 로컬에 설치하고 참조 음성을 이용해 생성하는 방법을 선택하면 됩니다. 이 방식도 Github 상에 설명으로 나와 있으니 다른 글을 통해 소개해 보도록 하겠습니다.

사진 : FishAudio 사이트. 다양한 목소리를 합성한 사례가 소개되어 있습니다.

정리해 보면 Fish-Speech의 주요 특징은 다음과 같습니다.

다국어 지원 : 8개 언어 지원 (영어/중국어/독일어/일본어/프랑스어/스페인어/한국어/아랍어)
대규모 음성 데이터 학습 : 70만 시간 가량의 음성 데이터
빠른 추론 지원 : 초당 20개 이상의 토큰을 처리하며 빠른 콘텐츠 생성 지원
고품질 출력 : 적절한 억양, 리듬의 정확하고 자연스런 음성 생성 지
라이선스 : CC-BY-NC-SA-4.0 로 공개 (상업적으로는 사용 불가)

참고) 공식문서, 코드, 로컬추론 코드, 모델카드, 데모, 소개영상

'AI 기술' 카테고리의 다른 글

Sapiens : 4가지 비전 작업을 지원하는 시각 모델 (0)	2024.09.27
APGCC : 보조지점 안내 기반의 군중 카운팅 (2)	2024.09.24
Seed-Music : 정교한 스타일 적용이 가능한 음악 생성 시스템 (0)	2024.09.21
DrawingSpinUp : 스케치 to 3D 애니메이션 생성 시스템 (1)	2024.09.17
GameGen-O : 오픈월드 비디오 게임 생성 모델 (1)	2024.09.16

'AI 기술' Related Articles

AI 탐구노트

Fish-Speech : 다국어를 지원하는 TTS 모델 본문

Fish-Speech : 다국어를 지원하는 TTS 모델

'AI 기술' 카테고리의 다른 글

티스토리툴바