AI 탐구노트

MuCodec : 초저비트레이트에서 고품질 음악 복원을 위한 음악 코덱 본문

AI 기술

MuCodec : 초저비트레이트에서 고품질 음악 복원을 위한 음악 코덱

42morrow 2024. 9. 27. 12:24
초저비트레이트에서 고품질의 음악을 복원할 수 있는 음악 코덱

 

MuCodec은 초저비트레이트에서 고품질의 음악을 복원하기 위한 음악 코덱으로 이를 이용해 음성 및 배경음 등을 효과적으로 처리해 높은 품질의 음악을 재생할 수 있습니다. 

 

기존의 음악 압축 기술들은 음악의 복잡한 배경과 보컬의 풍부한 표현을 모두 재현하지 못해 정보 손실이 발생하며, 저비트레이트에서는 재생 품질이 크게 저하되는 문제가 있었습니다. 

 

MuCodec은 두 가지 중요한 요소인 보컬과 배경음악을 고려하여, MuEncoder로 음향 및 의미적 특징을 추출하고, 이를 RVQ로 양자화한 뒤, 흐름 맞춤(flow-matching)을 통해 Mel-VAE 특징을 복원하여 HiFi-GAN을 통해 음악을 재생합니다.

 

사진 : MuCodec의 프레임워크

 

 

위 그림에서 소개되는 MuCodec의 프레임워크를 보면, MuEncoder, RVQ, Flow-Matching 기반 복원 모델, Mel-VAE 디코더, 그리고 HiFi-GAN으로 구성됩니다.

 

MuEncoder는 보컬과 배경음을 따로 분석합니다. 즉, 음향적 특징 추출을 통해 악기 소리들을 분석해서 그 소리의 높낮이, 리듬, 음색 같은 정보를 뽑아내 이를 배경음 표현에 활용할 수 있게 하고, 의미적(언어적) 특징 추출을 통해 가사의 내용과 목소리의 감정이나 뉘앙스 같은 것을 추출해 보컬음 표현에 활용할 수 있도록 합니다. 

 

RVQ(Residual Vector Quantization, 잔여 벡터 양자화)는 데이터를 더 작고 효율적으로 압축하는 방법으로, 이를 활용해 음악을 아주 작은 데이터 크기로 압축하면서도 원래 소리와 최대한 비슷하게 복원할 수 있도록 합니다. 

 

흐름 맞춤 방식(flow matching)은 압축된 데이터를 원래 형태에 가깝게 되돌리는 방법이며, Mel-VAE 특징을 복원한다는 것은 압축된 음악 데이터를 사용해서 다시 음악의 중요한 특성들을 찾아내는 것을 의미합니다. 

 

 

MuCodec의 특징을 정리해보면 다음과 같습니다. 

  1. MuEncoder : 13개의 Conformer 블록으로 구성되어 음향 및 의미 정보를 동시에 추출
  2. RVQ : 잔여 벡터 양자화 방식을 통해 MuEncoder의 특징을 압축
  3. Flow-Matching : GAN 기반 방식보다 안정적인 학습 및 더 적은 학습 단계로 고품질 음악 복원이 가능
  4. Mel-VAE Decoder와 HiFi-GAN을 사용해 최종적으로 고품질 음악을 생성

 

이 기술은 인터넷 스트리밍을 할 때, 또는 음악 데이터를 저장할 때, 또는 네트워크 속도가 느린 환경에서 음악을 전송할 때 큰 도움이 될 수 있습니다. 워낙에 많은 트래픽이 있다보니 이 방식으로 조금씩이라도 줄일 수가 있다면 경제적인 효과는 무시할 수 없는 수준이 될 것이라 예상됩니다. 

 

 

참고) 프로젝트, 논문, 코드(예정)