일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AI
- 확산 모델
- 딥마인드
- TRANSFORMER
- 인공지능
- LORA
- 오블완
- OpenAI
- 멀티모달
- 티스토리챌린지
- 뉴럴링크
- AI 기술
- 오픈AI
- 일론 머스크
- 트랜스포머
- 이미지 편집
- 생성형 AI
- 시간적 일관성
- PYTHON
- ControlNet
- tts
- ChatGPT
- 우분투
- 아두이노
- 가상환경
- LLM
- 메타
- javascript
- 서보모터
- ubuntu
- Today
- Total
AI 탐구노트
Seed-Music : 정교한 스타일 적용이 가능한 음악 생성 시스템 본문
고품질 음악 생성과 정교한 스타일 컨트롤을 가능하게 하는 음악 생성 및 편집 시스템
Seed-Music는 고품질 음악 생성과 정교한 스타일 컨트롤을 가능하게 하는 음악 생성 및 편집 시스템입니다.
음악 도메인은 신호의 복잡성으로 인해 참 어려운 영역입니다. 특히 보컬 같은 경우는 다양한 주파수 대역이 겹치는 소리를 포함하고 있어 더 그렇죠. 게다가 아무래도 전문적인 도메인 지식이 필요한 영역이다 보니 더 그런 것 같습니다. 음악을 만드는 것에는 멜롣, 화음 진행, 구조적 일관성 등에 대한 전문 지식도 필요하고 이를 AI를 이용하려고 할 때 가사, 쟝르, 악기 구성, 노래 구조와 같은 주석이 포하모딘 데이터를 이용해 학습해야 합니다. 하지만, 그런 데이터를 수집하는 것은 매우 어렵죠.
Seed-Music는 오토회귀 언어 모델링(Autoregressive Language Modeling)과 확산 모델을 결합해 컨트롤이 가능한 음악 생성과 후반 편집 기능을 제공합니다.
오토회귀 언어 모델링은 데이터를 순차적으로 처리하면서 이전에 나온 데이터를 기반으로 다음 데이터를 예측하는 방식을 말하는데 음악 생성에서는 모델이 생성한 앞부분 멜로디를 기반으로 다음 음을 예측하고 이를 반복해서 전체 곡을 완성하게 되는데 이 때 원하는 스타일이나 특정한 느낌을 반영한 음악을 만들 수 있게 됩니다.
확산 모델은 이미 만들어진 음악을 세밀하게 수정, 편집할 때 사용되는데 가사나 멜로디를 조금 바꾸거나 수정되더라도 자연스렙게 이어지도록 부드럽게 편집하게 하는 역할을 합니다. 이 둘을 결합해, 가사, 스타일 설명, 오디오 참조, 음악 악보, 음성 프롬프트 등의 멀티모달 입력을 활용해 보컬 음악을 생성하고, 기존 음악의 편집을 위한 인터랙티브 도구를 제공할 수 있게 되는 겁니다.
다중 모달 입력 (서로 다른 형태의 입력), 즉 가사 텍스트, 음악 스타일 설명, 참조 오디오 파일, 악보, 목소리 샘플 등과 같은 다양한 종류의 입력 데이터를 이용해 자연스럽고 높은 품질의 음악을 만들어 낼 수 있습니다.
Seed-Music 프레임워크는 위의 그림에서 나온 것처럼 세 가지 핵심 구성 요소로 이루어져 있습니다.
- Representation Learning: 오디오 파형을 압축하여 중간 표현을 생성
- Generator: 사용자 입력을 처리하여 해당 중간 표현을 생성
- Renderer: 중간 표현을 바탕으로 고품질 오디오 파형을 합성
중간 표현 방식으로는 오디오 토큰 (Audio Token), 상징적 음악 토큰 (Symbolic music Token), 보코더 잠재표현 (Vocoder Latents)를 제안했고 작업의 목적에 따라 유동적으로 세가지 중간 표현을 활용합니다. 그 가운데 하나로 아래의 그림은 오디오 토큰을 중간 표현 방식으로 하는 파이프라인의 모습을 보여주고 있습니다.
논문에서는 이 모델을 이용해 Lyrics2Song, Lyrics2Leadsheet2Song, MusicEDiT, Zero-shot Singing Voice Conversion 같은 몇 가지 응용 예시도 소개하고 있습니다.
'AI 기술' 카테고리의 다른 글
APGCC : 보조지점 안내 기반의 군중 카운팅 (2) | 2024.09.24 |
---|---|
Fish-Speech : 다국어를 지원하는 TTS 모델 (2) | 2024.09.23 |
DrawingSpinUp : 스케치 to 3D 애니메이션 생성 시스템 (1) | 2024.09.17 |
GameGen-O : 오픈월드 비디오 게임 생성 모델 (1) | 2024.09.16 |
GOT : 다양한 문자 인식 작업을 지원하는 모델 (1) | 2024.09.13 |