Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- LORA
- javascript
- PYTHON
- 아두이노
- 오블완
- 우분투
- OpenAI
- TRANSFORMER
- 확산 모델
- 트랜스포머
- AI 기술
- 오픈AI
- AI
- 딥마인드
- ubuntu
- 일론 머스크
- tts
- ControlNet
- 생성형 AI
- ChatGPT
- 멀티모달
- LLM
- 서보모터
- 가상환경
- 이미지 편집
- 뉴럴링크
- 티스토리챌린지
- 시간적 일관성
- 메타
- 인공지능
Archives
- Today
- Total
AI 탐구노트
VALL-E X : Cross-lingual 음성 합성 모델 본문
마이크로소프트가 공개한 다국어 TTS 모델
VALL-E X는 Microsoft가 개발한 Cross-lingual 음성 합성 모델로, 하나의 언어로 된 음성을 다른 언어로 변환합니다. 이 모델은 음성의 감정과 음색을 유지하면서, 학습된 데이터 없이 새로운 언어로 음성을 생성할 수 있는 기능을 갖추고 있습니다. 이를 통해 제로샷 텍스트-음성 합성 및 음성-음성 번역을 지원합니다. VALL-E X는 외국 억양을 효과적으로 제어할 수 있으며, 감정 유지 및 코드 스위칭 기능도 제공합니다. 사용상의 윤리적 문제를 예방하기 위한 조치도 고려되었다고 하죠.
텍스트 프롬프트, 오디오 파일 등을 입력으로 해서 다국어 TTS와 제로샷 음성 복제 기능을 제공하는데, 6GB VRAM의 GPU 혹은 CPU에서도 동작된다고 합니다. 공개된 github repo 내용을 보면 영어, 일본어, 중국어가 지원되지만 아쉽게도 한국어는 포함되어 있지 않았습니다. 영어로 테스트를 해 봤는데 흠... 제가 제 목소리도 익숙치 않은데다 영어 발음 자체도 유창하지 않아서인지 복제된 음성도 마음에 썩 들지는 않았습니다. 혼자 있어도 발현되는 이 놈의 영어 울렁증은 언제 고쳐질건지... T^T
- 코드는 VALL-E X의 비공식 오픈소스 구현체입니다.
'AI 기술' 카테고리의 다른 글
RobustL2S : 입모양을 보고 음성을 생성하는 모델 (0) | 2024.09.01 |
---|---|
Open Catalyst Project : 재생가능한 에너지 저장을 위한 촉매 모델링 (0) | 2024.09.01 |
FaceChain : 나만의 프로필 사진을 만들 수 있는 모델 (0) | 2024.08.31 |
PanoHead : 고품질 3D 머리 이미지 생성 모델 (0) | 2024.08.31 |
SAHI : 다양한 스케일 객체를 효과적으로 감지하기 위한 기법 (0) | 2024.08.31 |