AI 탐구노트

TRIA : Masked Token Modeling을 활용한 Zero-shot 드럼 비트 변환 본문

AI 기술

TRIA : Masked Token Modeling을 활용한 Zero-shot 드럼 비트 변환

42morrow 2024. 11. 17. 18:55

 

1. 서론

음악 제작에서 드럼 비트는 중요한 역할을 하며, 그 복잡성은 상당합니다. 드럼 비트를 생성하는 과정은 일반적으로 고도의 기술과 시간이 요구됩니다. 이 과정에서 비전문가와 전문가 모두에게 유용한 새로운 도구가 등장하고 있습니다. 최근 인공지능은 드럼 비트 생성에서 중요한 역할을 하고 있으며, 특히 제스처 기반의 리듬 표현을 활용해 이를 자동으로 변환하는 기술이 주목받고 있습니다.

 

본 글에서는 TRIA(The Rhythm In Anything)라는 시스템을 소개합니다. TRIA는 다양한 비드럼 음원을 드럼 비트로 변환하는 혁신적인 방법을 제시하며, 이를 통해 사용자는 리듬과 소닉 팔레트(*)를 간단히 제공하여 고품질의 드럼 비트를 생성할 수 있습니다. 이 기술은 음악 제작 과정을 단순화하며, 창의적이고 직관적인 방법으로 드럼 비트를 생성하는 새로운 가능성을 열어줍니다.

 

* 소닉팔레트(Sonic Palette): 음향 색체 또는 음색 조합을 의미. 여기서는 사용자가 원하는 드럼 음색을 정의하는 오디오 프롬프트로 이해하면 됨

 

사진 : TRIA를 이용해 사운드를 생성하는 예시 영상의 한 장면

 


2. 본론

2.1. 기존 방식의 문제점

기존 드럼 비트 생성 방식은 주로 기호(심볼)을 사용해 리듬을 만들거나 미리 정해진 소리 샘플을 조합해서 사용하는 방식이었습니다. 하지만 이런 방식에는 몇 가지 어려움이 있습니다. 우선, 사용자가 원하는 특정한 리듬과 소리를 즉시 결합하기 어렵습니다. 그리고 새로운 소리나 독특한 음색을 만들고 싶을 때, 이를 사용하려면 추가적인 학습 과정이나 새로운 데이터 준비가 필요했는데 이런 과정은 시간이 오래 걸려 창의적 음악 작업에 걸림돌이 되었습니다. 

 

2.2. 접근 방식

 

TRIA는 사용자가 제공한 두 개의 오디오 프롬프트를 기반으로 드럼 비트를 생성합니다. 하나는 드럼의 음색을 나타내고, 다른 하나는 리듬을 나타냅니다. 이 두 요소를 결합하여 고품질 드럼 오디오를 생성합니다. 특히, TRIA는 Zero-shot 방식으로 다양한 음원을 드럼 비트로 변환할 수 있습니다.

 

TRIA의 핵심은 Masked Token Modeling 기법입니다. 이는 부분적으로 마스킹된 오디오 토큰을 예측함으로써 새로운 드럼 비트를 생성하는 방식으로, 기존 시스템에 비해 높은 유연성과 창의성을 제공합니다.

 

그림 : TRIA 시스템의 학습, 추론 프로세스 도식화

 

2.3. 세부 적용 기술

  • Descript Audio Codec (DAC)
    TRIA는 DAC를 사용해 오디오를 토큰화합니다. DAC는 오디오 신호를 여러 개의 코드북으로 분할해 고차원 토큰으로 변환합니다. 이를 통해 효율적인 오디오 표현과 변환이 가능합니다.
  • Transformer 기반 아키텍처
    TRIA는 12개의 Transformer 인코더 레이어로 구성되어 있으며, 43M 파라미터를 갖춘 비교적 간단한 구조를 통해 고품질의 드럼 비트를 생성합니다.
  • 리듬 특징과 마스킹 기법
    리듬 프롬프트는 멜-스펙트로그램에서 추출된 대략적인 스펙트럼 특징을 기반으로 합니다. 이 특징은 모델이 리듬 정보를 학습하도록 돕습니다. 마스킹 기법을 통해 모델은 부분적으로 누락된 정보를 예측하여 완전한 오디오를 생성합니다.

3. 결론

 

TRIA는 기존 방식의 한계를 극복하며, 사용자에게 직관적이고 창의적인 음악 제작 도구를 제공합니다. 특히, 다양한 비드럼 음원을 고품질의 드럼 비트로 변환함으로써 음악 제작의 효율성을 크게 향상시킵니다. 이러한 기술은 음악 제작의 접근성을 높이며, 더 나은 창의적 결과물을 가능하게 합니다.

 


4. 참고자료

 


5. Q&A

 

Q. TRIA는 어떤 입력 데이터를 필요로 하나요?
TRIA는 드럼 음색을 나타내는 프롬프트와 리듬을 나타내는 프롬프트, 두 개의 오디오 입력을 필요로 합니다.

 

Q. Zero-shot 방식이란 무엇인가요?
Zero-shot 방식은 새로운 데이터에 대해 추가 학습 없이 기존 모델을 활용하여 결과를 생성하는 방식입니다.

 

Q. TRIA의 핵심 기술은 무엇인가요?
TRIA는 Masked Token Modeling 기법과 Descript Audio Codec을 기반으로 한 Transformer 아키텍처를 활용하여 드럼 비트를 생성합니다.