일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 가상환경
- 딥마인드
- 일론 머스크
- tts
- AI
- 서보모터
- LLM
- 시간적 일관성
- AI 기술
- ChatGPT
- ubuntu
- 트랜스포머
- 오픈AI
- TRANSFORMER
- OpenAI
- 아두이노
- 우분투
- 생성형 AI
- 인공지능
- LORA
- 메타
- 멀티모달
- ControlNet
- 티스토리챌린지
- javascript
- PYTHON
- 확산 모델
- 뉴럴링크
- 오블완
- 이미지 편집
- Today
- Total
AI 탐구노트
MuCodec : 초저비트레이트에서 고품질 음악 복원을 위한 음악 코덱 본문
초저비트레이트에서 고품질의 음악을 복원할 수 있는 음악 코덱
MuCodec은 초저비트레이트에서 고품질의 음악을 복원하기 위한 음악 코덱으로 이를 이용해 음성 및 배경음 등을 효과적으로 처리해 높은 품질의 음악을 재생할 수 있습니다.
기존의 음악 압축 기술들은 음악의 복잡한 배경과 보컬의 풍부한 표현을 모두 재현하지 못해 정보 손실이 발생하며, 저비트레이트에서는 재생 품질이 크게 저하되는 문제가 있었습니다.
MuCodec은 두 가지 중요한 요소인 보컬과 배경음악을 고려하여, MuEncoder로 음향 및 의미적 특징을 추출하고, 이를 RVQ로 양자화한 뒤, 흐름 맞춤(flow-matching)을 통해 Mel-VAE 특징을 복원하여 HiFi-GAN을 통해 음악을 재생합니다.
위 그림에서 소개되는 MuCodec의 프레임워크를 보면, MuEncoder, RVQ, Flow-Matching 기반 복원 모델, Mel-VAE 디코더, 그리고 HiFi-GAN으로 구성됩니다.
MuEncoder는 보컬과 배경음을 따로 분석합니다. 즉, 음향적 특징 추출을 통해 악기 소리들을 분석해서 그 소리의 높낮이, 리듬, 음색 같은 정보를 뽑아내 이를 배경음 표현에 활용할 수 있게 하고, 의미적(언어적) 특징 추출을 통해 가사의 내용과 목소리의 감정이나 뉘앙스 같은 것을 추출해 보컬음 표현에 활용할 수 있도록 합니다.
RVQ(Residual Vector Quantization, 잔여 벡터 양자화)는 데이터를 더 작고 효율적으로 압축하는 방법으로, 이를 활용해 음악을 아주 작은 데이터 크기로 압축하면서도 원래 소리와 최대한 비슷하게 복원할 수 있도록 합니다.
흐름 맞춤 방식(flow matching)은 압축된 데이터를 원래 형태에 가깝게 되돌리는 방법이며, Mel-VAE 특징을 복원한다는 것은 압축된 음악 데이터를 사용해서 다시 음악의 중요한 특성들을 찾아내는 것을 의미합니다.
MuCodec의 특징을 정리해보면 다음과 같습니다.
- MuEncoder : 13개의 Conformer 블록으로 구성되어 음향 및 의미 정보를 동시에 추출
- RVQ : 잔여 벡터 양자화 방식을 통해 MuEncoder의 특징을 압축
- Flow-Matching : GAN 기반 방식보다 안정적인 학습 및 더 적은 학습 단계로 고품질 음악 복원이 가능
- Mel-VAE Decoder와 HiFi-GAN을 사용해 최종적으로 고품질 음악을 생성
이 기술은 인터넷 스트리밍을 할 때, 또는 음악 데이터를 저장할 때, 또는 네트워크 속도가 느린 환경에서 음악을 전송할 때 큰 도움이 될 수 있습니다. 워낙에 많은 트래픽이 있다보니 이 방식으로 조금씩이라도 줄일 수가 있다면 경제적인 효과는 무시할 수 없는 수준이 될 것이라 예상됩니다.
'AI 기술' 카테고리의 다른 글
LARS : 로컬 LLM으로 사용자 문서를 분석하는 애플리케이션 (1) | 2024.09.30 |
---|---|
FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법 (0) | 2024.09.30 |
Sapiens : 4가지 비전 작업을 지원하는 시각 모델 (0) | 2024.09.27 |
APGCC : 보조지점 안내 기반의 군중 카운팅 (2) | 2024.09.24 |
Fish-Speech : 다국어를 지원하는 TTS 모델 (2) | 2024.09.23 |