FLUXMusic : 텍스트-음악 생성 모델

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI 탐구노트

FLUXMusic : 텍스트-음악 생성 모델 본문

AI 기술

FLUXMusic : 텍스트-음악 생성 모델

42morrow 2024. 9. 5. 10:37

확장된 변형 흐름 트랜스포머 기반의 텍스트-음악 생성 모델

FLUXMusic는 텍스트-음악 생성 작업을 위해 확장된 변형 흐름 트랜스포머 기반의 모델입니다.

기존 확산 모델은 고차원 데이터를 효과적으로 처리하지만, 반복적인 샘플링 과정에서 높은 계산 비용과 긴 추론 시간이 발생합니다.

FluxMusic은 텍스트-음악 생성에서 Rectified Flow(수정된 흐름)와 Transformer 구조를 적용해, 효율적인 학습과 더 나은 생성 성능을 달성함으로써 이러한 문제를 해결하고 있습니다. 즉, 빠른 학습 속도 및 생성된 오디오의 높은 품질, 입력된 프롬프트에 잘 어울리는 음악 생성, 모델 복잡도를 낮춰 계산 비용을 낮추고 추론 속도를 높일 수 있다는 장점을 제공합니다.

이 모델의 특징은 다음과 같습니다.

이중 스트림과 단일 스트림 구조
텍스트와 음악을 각각 독립적으로 처리한 후, 텍스트 스트림을 제거하고 음악 스트림을 처리하는 방식으로 정보를 통합함
사전 학습된 텍스트 인코더
여러 텍스트 인코더를 사용해 텍스트의 의미를 충분히 포착하고 유연한 추론이 가능하도록 설계됨
Rectified Flow
텍스트-음악 생성에서 새로운 확산 전략을 사용해 기존의 확산 모델보다 더 나은 효율성을 제공
VAE 공간에서 Mel-스펙트로그램 처리
음악 데이터를 압축해 VAE 기반 잠재 공간에서 노이즈 제거와 학습을 진행함

FluxMusic는 두 가지 스트림 블록(이중 스트림, 단일 스트림)을 쌓아 텍스트-음악 시퀀스를 처리한 후, 텍스트 스트림을 제거하고 음악 스트림만 남겨서 패치 예측을 수행합니다. 사전 학습된 CLAP-L과 T5-XXL 텍스트 인코더를 사용해 조건부 캡션 기능을 추출하며, Rectified Flow 기반으로 노이즈를 예측합니다.

참고로 아래 서비스 사이트 링크에서는 해당 기술을 활용해 만들어진 서비스와 앱이 소개되어 있으니 관심 있으시면 꼭 한번 방문해 보시기 바랍니다. 사이트에서 샘플로 소개하는 예시 생성 음원을 들어 보면 헐... 이 정도 수준이라고? 하는 생각이 들지도 모릅니다. : -)

참고) 논문, 코드, 서비스 사이트

'AI 기술' 카테고리의 다른 글

WhisperX : 긴 오디오, 단어 수준 지원 음성 인식 시스템 (0)	2024.09.06
HivisionIDPhotos : ID사진(증명사진)을 생성해 주는 도구 (0)	2024.09.06
PDFA-ENG-WDS : 영어 위주의 대규모 OCR 데이터셋 (2)	2024.09.04
SAM2Point : 3D 분할 수행 모델 (0)	2024.09.03
StreamingT2V : 일관되고 역동적인 긴 영상 생성 기법 (0)	2024.09.02

'AI 기술' Related Articles

AI 탐구노트

FLUXMusic : 텍스트-음악 생성 모델 본문

FLUXMusic : 텍스트-음악 생성 모델

'AI 기술' 카테고리의 다른 글

티스토리툴바