AI 탐구노트

ChatMusician : 텍스트로 음악을 이해하고 생성하는 모델 본문

AI 기술

ChatMusician : 텍스트로 음악을 이해하고 생성하는 모델

42morrow 2024. 8. 27. 09:12
텍스트로 음악을 이해하고 생성하는 오픈소스 LLM 모델

 

ChatMusician는 음악을 생성하는 오픈소스 LLM 모델입니다. 

 

여기에는 LLaMA2가 적용되어 있으며 음악의 텍스트 호환 음악 표현, ABC 표기법 등을 사전 훈련하고 미세조정을 거쳤습니다.

 

일반적으로 음악이라고 하면 아... 당연히 멀티모달 방식이겠구나 하실 수도 있는데 ChatMusian의 경우에는 순수하게 텍스트 토크나이저로 음악을 이해하고 생성합니다. 게다가 텍스트, 코드, 멜로디, 모티브, 음악 형식 등을 조건으로 구조화된 음악을 구성할 수 있다고 하네요.

 

사전 훈련에 사용한 코퍼스 데이터는 MusicPie 것인데, 훈련 데이터 대부분이 아일랜드 음악 스타일이라고 하며 형식도 아직은 엄격히 정의된 형식과 폐쇄형 지침만 지원되는 제약 사항이 있다고 합니다.

 

공개된 코드를 이용하면 Gradio를 이용해 직접 테스트해 볼 수도 있습니다.

 

사진 : ChatMusician 개요

 

 

 

사진 : ChatMusician 실행 결과 예시

 

 

참고) 프로젝트논문코드영상