MuCodec : 초저비트레이트에서 고품질 음악 복원을 위한 음악 코덱

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

MuCodec : 초저비트레이트에서 고품질 음악 복원을 위한 음악 코덱 본문

AI 기술

MuCodec : 초저비트레이트에서 고품질 음악 복원을 위한 음악 코덱

42morrow 2024. 9. 27. 12:24

초저비트레이트에서 고품질의 음악을 복원할 수 있는 음악 코덱

MuCodec은 초저비트레이트에서 고품질의 음악을 복원하기 위한 음악 코덱으로 이를 이용해 음성 및 배경음 등을 효과적으로 처리해 높은 품질의 음악을 재생할 수 있습니다.

기존의 음악 압축 기술들은 음악의 복잡한 배경과 보컬의 풍부한 표현을 모두 재현하지 못해 정보 손실이 발생하며, 저비트레이트에서는 재생 품질이 크게 저하되는 문제가 있었습니다.

MuCodec은 두 가지 중요한 요소인 보컬과 배경음악을 고려하여, MuEncoder로 음향 및 의미적 특징을 추출하고, 이를 RVQ로 양자화한 뒤, 흐름 맞춤(flow-matching)을 통해 Mel-VAE 특징을 복원하여 HiFi-GAN을 통해 음악을 재생합니다.

위 그림에서 소개되는 MuCodec의 프레임워크를 보면, MuEncoder, RVQ, Flow-Matching 기반 복원 모델, Mel-VAE 디코더, 그리고 HiFi-GAN으로 구성됩니다.

MuEncoder는 보컬과 배경음을 따로 분석합니다. 즉, 음향적 특징 추출을 통해 악기 소리들을 분석해서 그 소리의 높낮이, 리듬, 음색 같은 정보를 뽑아내 이를 배경음 표현에 활용할 수 있게 하고, 의미적(언어적) 특징 추출을 통해 가사의 내용과 목소리의 감정이나 뉘앙스 같은 것을 추출해 보컬음 표현에 활용할 수 있도록 합니다.

RVQ(Residual Vector Quantization, 잔여 벡터 양자화)는 데이터를 더 작고 효율적으로 압축하는 방법으로, 이를 활용해 음악을 아주 작은 데이터 크기로 압축하면서도 원래 소리와 최대한 비슷하게 복원할 수 있도록 합니다.

흐름 맞춤 방식(flow matching)은 압축된 데이터를 원래 형태에 가깝게 되돌리는 방법이며, Mel-VAE 특징을 복원한다는 것은 압축된 음악 데이터를 사용해서 다시 음악의 중요한 특성들을 찾아내는 것을 의미합니다.

MuCodec의 특징을 정리해보면 다음과 같습니다.

MuEncoder : 13개의 Conformer 블록으로 구성되어 음향 및 의미 정보를 동시에 추출
RVQ : 잔여 벡터 양자화 방식을 통해 MuEncoder의 특징을 압축
Flow-Matching : GAN 기반 방식보다 안정적인 학습 및 더 적은 학습 단계로 고품질 음악 복원이 가능
Mel-VAE Decoder와 HiFi-GAN을 사용해 최종적으로 고품질 음악을 생성

이 기술은 인터넷 스트리밍을 할 때, 또는 음악 데이터를 저장할 때, 또는 네트워크 속도가 느린 환경에서 음악을 전송할 때 큰 도움이 될 수 있습니다. 워낙에 많은 트래픽이 있다보니 이 방식으로 조금씩이라도 줄일 수가 있다면 경제적인 효과는 무시할 수 없는 수준이 될 것이라 예상됩니다.

참고) 프로젝트, 논문, 코드(예정)

'AI 기술' 카테고리의 다른 글

LARS : 로컬 LLM으로 사용자 문서를 분석하는 애플리케이션 (1)	2024.09.30
FiT3D : 3D 정보에 기반한 2D 모델 미세조정 기법 (0)	2024.09.30
Sapiens : 4가지 비전 작업을 지원하는 시각 모델 (0)	2024.09.27
APGCC : 보조지점 안내 기반의 군중 카운팅 (2)	2024.09.24
Fish-Speech : 다국어를 지원하는 TTS 모델 (2)	2024.09.23

'AI 기술' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

AI 탐구노트

AI 탐구노트

MuCodec : 초저비트레이트에서 고품질 음악 복원을 위한 음악 코덱 본문

MuCodec : 초저비트레이트에서 고품질 음악 복원을 위한 음악 코덱

'AI 기술' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역